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1.1 科学 计算 工具 及 流程 


作者 : Fernando Perez, Emmanuelle Gouillart, Gaél Varoquaux, Valentin 
Haenel 


1.1.1 为 什么 是 Python ? 


1.1.1.1 科学 家 的 需求 


获得 数据 (模拟 ， 实 验 控 制 ) 
操作 及 处 理 数据 

可 视 化 结果 ... 理解 我 们 在 做 什么 | 

沟通 结果 : 生成 报告 或 出 版 物 的 图 片 ， 写 报告 


1.1.1.2 要 求 


对 于 经 典 的 数学 方法 及 基本 的 方法 ， 有 丰富 的 现成 工具 : 我 们 不 希望 重新 编写 
程序 去 画 出 曲线 、 傅 立 叶 变换 或 者 拟 合算 法 。 不 要 重复 发 明 轮 子 ! 

易于 学 习 : 计算 机 科学 不 是 我 们 的 工作 也 不 是 我 们 的 教育 背景 。 我 们 想 要 在 几 
分 钟 内 画 出 曲线 ， 平 滑 一 个 信号 或 者 做 傅立叶 变换 ， 

可 以 方便 的 与 合作 者 、 学 生 、 客 户 进行 交 流 ， 代 码 可 以 存在 于 实验 室 或 公司 里 
A: 代码 的 可 读 性 应 该 像 书 一 样 。 因 此 ， 这 种 语言 应 该 包含 尽 可 能 少 的 语法 符 
号 或 者 不 必要 的 常规 规定 ， 使 来 自 数学 或 科学 领域 读者 愉悦 的 理解 这 些 代 码 。 
语言 高 效 ， 执 行 快 .…. 但 是 不 需要 是 非常 快 的 代码 ， 因 为 如 果 我 们 花费 了 太 多 的 
时 间 来 写 代 码 ， 非 常 快 的 代码 也 是 无 用 的 。 

A tee se i se 


1.1.1.3 现 有 的 解决 方案 


科学 家 用 哪 种 解决 方案 进行 工作 ? 


编译 语言 : C、C++、Fortran 等 。 


优势 : 


o 非常 快 。 极 度 优化 的 编译 器 。 对 于 大 量 的 计算 来 说 ， 很 难 比 这 些 语言 的 性 
能 更 好 。 

o 一些 非常 优化 的 科学 计算 包 。 上 比如 : BLAS (向 量 /矩阵 操作 ) 

DE : 


o 使 用 起 来 伟人 痛苦 IPAE, uli, RS 
法 (&, ::, } ; 等 ) ， 手 动 内 存 管理 〈 在 C 中 非常 棘手 ) 。 对 于 非 计 算 机 学 


他 们 是 艰深 的 语言 。 


Xt 


e 优势 
o 对 不 同 的 领域 的 多 种 算法 都 有 非常 的 类 库 。 执 行 很 快 ， 因 为 这 些 类 库 通 常 
使 用 编译 语言 写 的 。 
o 友好 的 开发 环境 : 完善 的 、 组 织 良好 的 帮助 ， 整 合 的 编辑 器 等 
o 有 商业 支持 
e ^B: 


o 基础 语言 非常 欠缺 ， 会 限制 高 级 用 户 
o 不 是 免费 的 


其 他 脚本 语言 : Scilab, Octave, Igor, R, IDLÆ, 
。 优 势 : 


o 开源 、 免 费 ， 或 者 至 少 比 Matlba 便 宜 。 
o 一 些 功 能 非常 高 级 〈R 的 统计 ，lgor 的 图 形 等 。) 
e ^B: 
o 比 Matlab 更 少 的 可 用 算法 ， 语 言 也 并 不 更 高 级 
o 一 些 软 件 更 专注 于 一 个 领域 。 比 如 ，Gnuplot 或 xmgrace 画 曲线 。 这 些 程序 
非常 强大 ， 但 是 他 们 只 限定 于 一 个 单一 用 途 ， 比 如 作 图 。 


那 Python 呢 ? 
e 优势 : 
o 非常 丰富 的 科学 计算 包 (尽管 比 Matlab 少 一 些 ) 
o 精心 设计 的 语言 ， 人 允许 写 出 可 读 性 非常 好 并 且 结 构 良 好 的 代码 : 我 们 “按照 
我 们 所 想 去 写 代 三”。 
EU I E E 


。 免 费 的 开源 软件 ， 广 泛 传播 ， 有 一 个 充满 活力 的 社区 。 
e DE: 


o 不 太 友好 的 开发 环境 ， 比 如 与 Matlab 相 比 。 (更 加 极 客 向 ) 。 
o 并 不 是 在 其 他 专业 软件 或 工具 箱 中 可 以 找到 算法 都 可 以 找到 


1.1.2 Python 科学 计算 的 构成 


与 Matlba，Scilab 或 者 R 不 同 ，Python 并 没有 预先 绑 定 的 一 组 科学 计算 模块 。 下 面 
是 可 以 组 合 起 来 获得 科学 计算 环境 的 基础 的 组 件 。 


e Python， 通 用 的 现代 计算 语言 


o Python 语言 : 数据 类 型 (字符 string， 整 型 int) ， 流 程控 制 ， 数 据 集合 
(列表 list， 字 上 典 dict) ， 模 式 等 等 。 

标准 库 及 模块 

用 Pyhon 写 的 大 量 专业 模块 及 应 用 : 网 络 协议 、 网 站 框架 等 ... 以 及 科学 计 


O O 


o 开发 工具 (自动 测试 ， 文 档 生 成 ) 
e IPython, 高 级 的 Python Shell http://ipython.org/ 


(Bl) Shell - Konsole <2> io | 


s='IPython uses TAB for name completion. Hit TAB after the dot:' 


s. 

-Capitalize s.expandtabs -islower s.lower .rstrip 

.Center s.find -isspace s.lstrip .split 

. count s .istitle .replace -splitlines s.ug 
.decode s.i .isupper .rfind .startswith 
.- encode s .rindex .strip 
.endswith s.isdigit lj .rjust . Swapcase 


# Functions are automatically parenthesized, saving typing: 


s.replace 'TAB', 'tab' 
s.replace ('TAB', 'tab') 
'IPython uses tab for name completion. Hit tab after the dot:' 


4 Using ',' as the first character the quotes are also automatic: 
,;S.replace tab TAB 


s.replace ("tab", "TAB") 
'TPython uses TAB for name completion. Hit TAB after the dot:' 








e Numpy : 提供 了 强大 数值 数组 对 象 以 及 程序 去 操作 它 
们 。http://www.numpy.org/ 


e Scipy : 高 级 的 数据 处 理 程序 。 优 化 、 回 为 插值 等 http://www.scipy.org/ 
e Matplotlib : 2D 可 视 化 , “出 版 级 "的 图 表 http://matplotlib.sourceforge.net/ 











e Mayavi : 3D5J 3o dEhttp://code.enthought.com/projects/mayavi/ 





1.1.3 交互 工作 流 : IPython 和 文本 编辑 器 


测试 和 理解 算法 的 交互 工作 : 在 这 个 部 分 我 们 描述 一 下 用 IPython 的 交互 工作 流 来 方 
便 的 研究 和 理解 算法 。 


Python 是 一 门 通用 语言 。 与 其 他 的 通用 语言 一 样 ， 没 有 一 个 绝对 权威 的 工作 环境 ， 
也 不 止 一 种 方法 使 用 它 。 尽 管 这 对 新 人 来 说 不 太 好 找到 适合 自己 的 方式 ， 但 是 ， 这 
使 得 Python 被 用 于 在 网 站 服务 器 或 族人 设备 中 编写 程序 。 


本 部 分 的 参考 文档 : 
IPython 用 户 手册 : http://ipython.org/ipython-doc/dev/index.html 


1.1.3.1 MATA 


启动 ipython: 
In [1]: 


print('Hello world') 


Hello world 


在 对 象 后 使 用 ? 运算 符 获得 帮助 : 


In [2]: print 


Type: builtin_function_or_method 
Base Class: «type 'builtin function or method'» 
String Form: «built-in function print» 
Namespace: Python builtin 
Docstring: 
print(value, ..., sep-' ', end=’\n’, file=sys.stdout) 


Prints the values to a stream, or to sys.stdout by default. 
Optional keyword arguments: 

file: a file-like object (stream); defaults to the current sys 
sep: string inserted between values, default a space. 

end: string appended after the last value, default a newline. 





1.1.3.2 (£255 ds FPE NRI 


在 文本 编辑 器 中 ， 创 建 一 个 myfile.py 文 件 。 在 EPD (Enthought Python 
Distribution) 中 ， 你 可 以 从 开始 按钮 使 用 _Scite。 在 Python(x,y) 中 , 你 可 以 使 用 
Spyder。 在 Ubuntu 中 , 如 果 你 还 没有 最 喜欢 的 编辑 器 ， 我 们 建议 你 安装 Stani's 
Python editor。 在 这 个 文件 中 ， 输 入 如 下 行 : 


S = 'Hello world' 
print(s) 


现在 ， 你 可 以 在 IPython 中 运行 它 ， 并 研究 产生 的 变 
In [2]: 


fala 


%run my_file.py 


Hello world 


In [3]: 


Out[3]: 


'Hello world' 


In [4]: 


%whos 


Variable Type Data/Info 


S str Hello world 


从 脚本 到 函数 


尽管 公使 用 脚本 工作 很 请 人 ， 即 一 个 满 是 一 个 接 一 个 命令 的 文件 ， 但 是 要 有 计 
划 的 逐渐 从 脚本 进化 到 一 组 函数 : 


e MARAT SA, HAAS. 
e 以 函数 的 角度 思考 ， 有 助 于 将 问题 拆 分 为 小 代码 块 。 


1.1.3.3 IPython 提 示 与 技巧 


IPython 用 户 手册 包含 关于 使 用 IPython 的 大 量 信息 ， 但 是 ， 为 了 帮 你 你 更 快 的 入 
门 ， 这 里 快速 介绍 三 个 有 用 的 功能 : 历史 ， 魔 法 函数 ， 别 称 和 tab 完 成 。 


与 Unix Shell 相 似 ，IPython 支 持 命 命 历史 。 按 上 下 在 之 前 输入 的 命 合 间 切换 : 
In [1]: x = 10 


In [2]: «UP» 
In [2]: x = 10 


IPython 通 过 在 命 合 前 加 % 字 符 的 前 级 ， 支 持 所 谓 魔法 函数 。 ie pid 
数 /un 和 whos 都 是 魔法 函数 。 请 注意 automagic 设 置 默认 是 和 启用， 允许 你 忽略 前 面 
的 %。 因 此 ， 你 可 以 只 输入 魔法 画 数 仍然 是 有 效 的 。 


其 他 有 用 的 魔法 函数 : 
e %cd 改变 当前 目 录 
In [6]: 


cop 
/Users/cloga/Documents 


e %timeit 人 允许 你 使 用 来 自 标 准 库 中 的 timeit 模 块 来 记录 执行 短 代码 端的 运行 时 间 
In [7]: 


timeit x - 10 


10000000 loops, best of 3: 26.7 ns per loop 


e %cpaste 允许 你 粘贴 代码 ， 特 别 是 来 自 网 站 的 代码 ， 前 面 带 有 标准 的 Python 
提示 符 (BI >>>) 或 ipython 提 示 符 的 代码 ( 即 in [3]) : 


In [5]: cpaste 
Pasting code; enter '--' alone on the line to stop or use Ctrl- 


10000000 loops, best of 3: 85.9 ns per loop 
In [6]: cpaste 
Pasting code; enter '--' alone on the line to stop or use Ctrl- 


10000000 loops, best of 3: 86 ns per loop 
IE | 


e %debug 人 允许 你 进入 事后 除 错 。 也 就 是 说 ， 如 果 你 想 要 运行 的 代码 抛 出 了 一 个 
异常 ， 使 用 %debug 将 在 抛 出 异常 的 位 置 进入 排 错 程序 。 





In [7]: x === 10 
File "<ipython-input-6-12fd421b5f28>", line 1 
X === 10 A 


SyntaxError: invalid syntax 
In [8]: debug 
> /home/esc/anaconda/lib/python2.7/site-packages/IPython/core/comp: 


86 and are passed to the built-in compile function.' 
---> 87 return compile(source, filename, symbol, self.flat 
88 
ipdb>locals() 
('source': u’x === 10\n’, ‘symbol’: ‘exec’, ‘self’: 


«IPython.core.compilerop.CachingCompiler instance at Ox2ad8ef0>, 
‘filename’: ’<ipython-input -6-12fd421b5f28>’ } 


BE 





IPython help 


e [Ai& BSIPythonzF- ft e] Limit %quickre E 35 Ex 23 A, 
e ia A9?6magic E zn FH RI FR ES TA ERAI 71] 


而 且 IPython 提 供 了 大 量 的 别称 来 模拟 常见 的 UNIX 命 令 行 工具 比如 /S 等 于 list 
files，cp 等 于 copy files 以 及 rm 等 于 remove files。 输 入 alias 可 以 显示 所 有 的 别称 的 
列表 : 


In [5]: 


alias 


Total number of aliases: 12 


Out[5]: 


(eal Carts. 

('cp', 'cp'), 

('ldir', ‘ls -F -G -1 %1 | grep /$'), 
('1f', 'ls -F -1 -G %] | grep ^-'), 
('lk', 'ls -F -1 -G %] | grep ^1'), 
('ll', 'ls -F -1 -G'), 

("Ils "Is E90) 

('lx', 'ls -F -1 -G %1 | grep ^-..x'), 
('mkdir', 'mkdir'), 

('mv', 'mv'), 

('rm', 'rm'), 

('rmdir', 'rmdir')] 


最 后 ， 提 一 下 tab 完 成 功能 ， 我 们 从 IPython 手 册 引 用 它 的 描述 : 


Tab completion, especially for attributes, is a convenient way to explore the 
structure of any object you're dealing with. Simply type object name. <tab>to 
view the object's attributes. Besides Python objects and keywords, tab 
completion also works on file and directory names.</tab> 


In [1]: x = 10 

In [2]: x.<TAB> 

x.bit length x.conjugate x.denominator x.imag x.numerator x.real 
In [3]: x.real. 

x.real.bit length x.real.denominator x.real.numerator x.real.conjut 
In [4]: x.real. 


E — B 





1.2 Python 语言 


作者 Chris Burns, Christophe Combelles, Emmanuelle Gouillart, Gaël 
Varoquaux 


Python 中 的 科学 计算 这 里 我 们 介绍 Python 语言 。 这 里 只 会 仅仅 解决 可 以 用 于 
Numpy 和 Scipy 的 最 低 要 求 。 想 要 更 多 的 了 解 这 门 语言 =, as 

# http://docs.python.org/tutorial 这 个 非常 好 的 教程 。 也 可 以 借助 专门 的 图 书 ， 
比如 : http://diveintopython.org/. 


Python 是 一 门 编程 语 言 ， 与 C、Fortran、BASIC 和 PHP 等 等 类 似 。Python 的 一 些 特 
性 如 下 : 


e 一 种 解释 性 (不 是 编译 ) 语言 。 与 C 或 者 Fortran 等 不 同 ，Python 代 码 在 执行 前 
不 会 编译 。 另 外 ，Python 可 以 交互 使 用 : 有 许多 的 Python 解释 器 ， 命 信和 脚本 
可 以 在 其 中 执行 。 

e 在 开源 证 书 下 发 布 的 免费 软件 : Python 可 以 免费 使 用 和 分 发 ， 即 使 用 于 商用 。 

多 平台 : Python 可 以 用 于 所 有 的 主流 操作 系统 ，Windows、Linux/Unix、 

MacOS X, 甚至 可 能 是 你 有 手机 操作 系统 等 等 。 

可 读 性 很 强 的 语言 ， 有 清晰 不 罗 味 的 语法 

拥有 大 量 高 质量 的 包 ， 可 以 应 用 于 多 种 多 样 的 应 用 ， 从 网 站 框架 到 科学 计算 。 

非常 简单 的 接口 与 其 他 语言 交互 ， 特 别 是 C 和 C++ 

稍 后 会 介绍 一 些 语言 的 其 他 特性 。 例 如 Python 是 面向 对 象 的 语言 ， 包 含 动态 类 

型 (一 个 变量 可 以 在 程序 过 程 中 ， 可 以 包含 不 同 的 对 象 类 型 ) 。 


Python 的 特有 特性 的 更 多 信息 ， 请 见 : http://www.python.org/about/ 


1.2.1 第 一 


启动 IPython Shell( 一 个 增强 的 Python 交互 Shell) : 


e 在 Linux/Mac 终 端 中 输入 “ipython”， 或 者 在 Windows cmd sheell, 
e 或 者 从 菜单 启动 程序 ， 即 在 Python(x,y) 或 EPD， 如 果 你 已 经 安装 这 些 Python 科 


如 果 你 的 电脑 上 还 没有 安装 IPython， 也 可 以 选择 其 他 Python shells， 比 如 在 终端 中 
44 “Python” & zi 2&Python shell， 或 者 ldle 解 释 器 。 但 是 ， 我 们 建议 使 用 IPython 
Shell， 因 为 它 增强 特性 ， 特 别 是 对 于 科学 计算 。 


如 果 你 已 经 启动 了 解释 器 ， 输 入 
In [2]: 


print "Hello, world!" 


Hello, world! 


接 下 来 就 会 显示 信息 "Hello, world!"。 你 已 经 执行 了 你 的 第 一 条 Python 命令 ， 恭 喜 ! 
你 自己 开始 吧 ， 输 入 下 列 命令 
In [1]: 


QNI 
b-2*a 
type(b) 


Out[1]: 


int 


In [4]: 


b = 'hello' 
type(b) 


Out[4]: 


str 


In [5]: 


b + b 


Out[5]: 


'hellohello' 


In [6]: 


25b 


Out[6]: 


'hellohello' 


上 面 定 义 了 a 和 /两 个 变量 。 注 意 这 里 在 赋值 前 没有 声明 变量 类 型 。 相 反 ， 在 C 中 ， 
应 该 与 为 : 


int a-3; 


另外 ， 变 量 的 类 型 可 以 改变 ， 在 一 个 时 间 点 它 可 以 等 于 一 个 特定 类 型 ， 在 接 下 来 的 
时 间 里 ， 他 可 以 等 于 另外 的 类 型 。b 首 先 等 于 整数 ， 但 是 当 它 被 赋值 为 "hello" 时 他 变 
成 等 于 字符 。 在 Python 中 ， 整 数 的 运算 符 (b—2*a) 原生 支持 的 ， 一 些 字符 上 的 操 
作 符 例如 相 加 和 相 乘 也 是 支持 的 ， 相 当 于 串联 和 重复 。 


1.2.2 基础 类 型 


1.2.2.1 数值 类 型 
Python 支持 如 下 的 数值 、 标 量 类 型 : 


SER: 


In [8]: 


dL ar di 


Out[8]: 


In [11]: 


a-4 
type(a) 


Out[11]: 
int 
In [12]: 


C= 
type(c) 


Out[12]: 

float 
复数 : 

In [13]: 


a = 1.5 + 0.5j 
a.real 


Out[13]: 


ig 


In [14]: 


a.imag 


Out[14]: 


In [15]: 


type(1. + 0j ) 


Out[15]: 


complex 


布尔 : 
In [16]: 


3 > 4 


Out[16]: 


False 


In [17]: 


test - (3 » 4) 
test 


Out[17]: 


False 


In [18]: 


type(test) 


Out[18]: 


bool 


ltt, Python shell 可 以 代替 你 的 口袋 计算 器 ， 因 为 基本 的 代数 操作 符 +、-、*、 人 、 
% (ER) 都 已 经 原生 实现 了 。 


In [19]: 
UCM 
Out[19]: 
21.0 
In [20]: 
270] 
Out[20]: 
1024 
In [21]: 
8 9?6 3 
Out[21]: 
2 
类 型 转化 (投射 ) 
In [22]: 
float(1) 
Out[22]: 
1.0 


注意 : 整数 相 除 
In [23]: 


du 


Out[23]: 


1 


技巧 : 使 用 浮 点 : 
In [24]: 


SO tue 


Out[24]: 


oO NM C 


Out[25]: 


1 


In [26]: 


a / float(b) 


Out[26]: 


15 


如 果 你 明确 想 要 整除 ， 请 使 用 // : 
In [27]: 


Suo 2 


Out[27]: 


1.0 


Python3 改 变 了 除 运算 符 行为 。 细 节 请 看 python3porting 网 站 . 
1.2.2.2 容器 
Python 提供 了 许多 有 效 的 容器 类 型 ， 其 中 存储 了 对 象 集合 。 


1.2.2.2.1 列表 


列表 是 一 个 有 序 的 对 象 集合 ， 对 象 可 以 有 多 种 类 型 。 例 如 : 
In [28]: 


L= ['red', 'blue', 'green', 'black', 'white'] 
type(L) 


Out[28]: 


list 


索引 : 访问 包含 在 列表 中 的 单个 对 象 : 
In [29]: 


L[2] 
Out[29]: 


'green' 


AARS, MAT : 
In [30]: 


Les] 


Out[30]: 


'white' 


In [31]: 


ae 2 


Out[31]: 
'black' 
注意 : 索引 从 0 开始 (和 C 中 一 样 ) ， 而 不 是 1( 像 在 Fortran 或 Matlab)  ! 


切片 : 获得 规律 分 布 元 素 的 子 列表 : 
In [32]: 


L 
Out[32]: 

['red', 'blue', 'green', 'black', 'white'] 
In [33]: 

L[2:4] 
Out[33]: 


['green', 'black'] 
注意 : L[startstop] B £ s&5|start«- i < stop 的 元 素 (i 的 范围 从 start 到 stop-1) 。 
此 ，L[start:stop] 包 含 (stop-start) 个 元 素 。 
切片 语法 : L[start:stop:stride] 
所 有 切片 参数 都 是 可 选 的 : 
In [34]: 


L 


Out[34]: 
['red', 'blue', 'green', 'black', 'white'] 
In [35]: 
L[3:] 
Out[35]: 
['black', 'white'] 
In [36]: 
L[:3] 
Out[36]: 
['red', 'blue', 'green'] 


列表 是 可 变 对 象 ， 可 以 被 改变 : 
In [38]: 


L[0] = 'yellow' 
L 


Out[38]: 
['yellow', 'blue', 'green', 'black', 'white'] 
In [39]: 


L[2:4] = ['gray', 'purple'] 
L 


Out[39]: 


['yellow', 'blue', 'gray', 'purple', 'white'] 


注 : 一 个 列表 的 元 素 可 以 有 不 同 的 类 型 : 
In [40]: 
L = [3, -200, 'hello'] 
L 
Out[40]: 


[3, -200, 'hello'] 


In [41]: 


L[1], L[2] 


Out[41]: 
(-200, 'hello') 

对 于 一 个 所 有 类 型 都 相同 的 数值 数据 集合 ， 使 用 Numpy 模 块 提供 的 数组 类 型 通常 更 

有 效 。Numpy 数 组 是 包含 固定 大 小 项 目的 内 存 组 块 。 使 用 Numpy 数 组 ， 元 素 上 的 操 


作 可 以 非常 快速 ， 因 为 元 素 均 匀 分 布 在 内 存 上 并 且 更 多 的 操作 是 通过 特殊 的 C 范 数 
而 不 是 Python 循环 。 


Python 提 供 了 一 大 组 函数 来 修改 或 查询 列表 。 这 里 是 一 些 例子 ， 更 多 内 容 ， 请 
见 : http://docs.python.org/tutorial/datastructures.html#more-on-lists 


添加 和 删除 元 素 : 
In [42]: 


L = ['red', 'blue', 'green', 'black', 'white'] 
L.append( 'pink') 
L 
Out[42]: 
['red', 'blue', 'green', 'black', 'white', 'pink'] 
In [43]: 


L.pop() # 删除 并 返回 最 后 一 个 项 目 


Out[43]: 


'pink' 


In [44]: 


Out[44]: 
['red', 'blue', 


In [45]: 


L.extend(['pink', 
L 


In [46]: 


Out[46]: 


['red', 'blue', 


E: 
In [47]: 


Out[47]: 


['white', 


In [48]: 


'green', 


'green', 


'black', 


'black', 'white'] 


'purple']) # 扩展 列表 L， 原 地 


'black', 'white'] 


'green', 'blue', 'red'] 


r2 - list(L) 
r2 


Out[48]: 


['red', 'blue', 'green', 'black', 


In [49]: 
r2.reverse() # 原 对 象 
r2 

Out[49]: 


['white', 'black', 'green', 'blue' 


串联 和 重复 列表 : 
In [50]: 


Out[50]: 


['white', 
'black', 
'green', 
'blue', 
'red', 
'red', 
'blue', 
'green', 
'black', 
'white'] 


In [51]: 


Out[51]: 


'white'] 


, 'red'] 


['white', 
'black', 
'green', 
'blue', 
'red', 
'white', 
'black', 
'green', 
'blue', 
'red'] 


排序 : 
In [52]: 


sorted(r) # 新 对 象 


Out[52]: 


['black', 'blue', 'green', 'red', 


In [53]: 


Out[53]: 


['white', 'black', 'green', 'blue' 


In [55]: 


r.sort() # 原 对 象 
和 


Out[55]: 


['black', 'blue', 'green', 'red', 


方法 和 面向 对 象 编程 


'white'] 


, 'red'] 


'white'] 


符号 rmethod() (BI r.append(3) and L.pop()) 是 我 们 第 一 个 关于 面向 对 象 编程 的 例 
子 (OOP) 。 作 为 列表 ， 对 象 [ 有 可 以 以 这 种 方式 调用 的 方法 函数 。 对 于 这 篇 教程 
不 需要 关于 面向 对 象 编程 的 更 多 知识 ， 只 需要 理解 这 种 符号 。 


发 现 方法 : 
提醒 : 在 IPython 中 : tab 完 成 ( 按 tab) 


In [28]: r.<TAB> 


r. addi r. iadd _ r. setattr 
r. class . r. imul r. setitem _ 
r. contains . Fo qmd bes r. setslice 
r. delattr r. iter r. sizeof 
r. delitem . r le Fe SE 
r. delslice r. len . r.  subclasshook . 
Fa OO r lt r.append 
Fr. -eq - r mul r.count 
r. format . r. ne r.extend 
r. ge r. new . r.index 
r. getattribute . r. reduce . r.insert 
r. getitem _ r. reduce ex . r.pop 
r. getslice r.. repr - r.remove 
Fo oie. r. reversed _ r.reverse 
r. hash . r. rmul . r.sort 
1.2.2.2.2 字符 
不 同 的 字符 语法 〈 单 引号 、 双 引号 或 三 个 引号 ) 
In [58]: 
s = 'Hello, how are you?' 
s = "Hi, what's up" 
s = '''Hello, 
how are you''' # 三 个 引号 可 以 允许 字符 跨行 
S 二 pn 


what's up?""" 
'Hi, what's up?' 


File "«ipython-input-58-dfe00f996c26»", line 7 
'Hi, what's up?' 
^ 
SyntaxError: invalid syntax 


如 果 在 字符 中 要 是 使 用 引号 ， 那 么 应 该 找 套 使 用 ， 或 者 使 用 "进行 转 义 ， 否 则 会 报 


错 。 


换行 的 符号 为 n，tab 符 号 是 \t。 

字符 也 是 类 似 与 列表 的 结合 。 因 此 ， 也 可 以 使 用 相同 的 语法 和 规则 索引 和 切片 。 
索引 : 

In [59]: 


a - "hello" 
a[o] 


Out[59]: 
I h 1 

In [60]: 
a[1] 

Out[60]: 
I e 1 

In [61]: 
a[-1] 

Out[61]: 
I o 1 


( 记 住 负 索 引 从 右 侧 开始 计数 。) 
UH: 
In [64]: 


a - "hello, world!" 
a[3:6] # 第 三 到 第 六 个 (不 包含 ) 元 素 : HRS. 4 5 


Out[64]: 


joo 


In [65]: 


a[2:10:2] # 语法 : a[ 开 始 : 结束 : 步 幅 ] 


Out[65]: 


‘lo o' 


In [66]: 


a[::3] # 从 开始 到 结尾 ， 每 隔 3 个 字母 


Out[66]: 


'"hlr!' 


重音 符号 和 特殊 字符 也 可 以 被 处 理 为 Unicode 字 符 (请 见 
http://docs.python.org/tutorial/introduction.html#unicode-strings) 。 
字符 是 不 可 变 对 象 ， 不 可 能 修改 内 容 。 不 过 可 以 从 原始 的 字符 中 创建 一 个 新 的 字 


No 


In [68]: 


a - "hello, world!" 
a[2] = 'z' 


TypeError Traceback (most recent c: 
<ipython-input -68-8f124c87c8cf> in <module>() 

1 a = "hello, world!" 

----> 2 a[2] = 'z' 


TypeError: 'str' object does not support item assignment 
[| E] 
In [69]: 





a.replace('l', 'z', 1) 


Out[69]: 


'hezlo, world!' 


In [70]: 


a.replace('l', 'z') 


Out[70]: 


'hezzo, worzd!' 


字符 有 许多 有 用 的 方法 ， 比 如 上 面 的 a.replace。 回 忆 一 下 a. 面 向 对 象 的 符号 ， 并 且 
使 用 tab 完 成 或 者 help(str) 来 搜索 新 的 方法 。and use tab completion or 


更 多 内 容 Python 提供 了 操作 的 字符 的 高 级 可 能 性 ， 看 一 下 模式 或 格式 。 感 兴趣 的 读 
者 请 参考 : http://docs.python.org/library/stdtypes.html#string-methods 和 
http://docs.python.org/library/string.html#new-string-formatting. 

字符 格式 : 


In [71]: 


'An integer: %i; a float: %f; another string: %s' % (1, 0.1, 'stritr 
图 = m 
Out[7 1]: 





'An integer: 1; a float: 0.100000; another string: string' 


In [72]: 


i = 102 
filename = 'processing_of_dataset_%d.txt' % i 
filename 


Out[72]: 


'processing of dataset 102.txt' 


1.2.2.2.3. Dictionaries 
字典 本 质 上 是 一 个 映射 键 值 的 高 效 表 格 。 它 是 一 个 无 序 的 容器 
In [74]: 

tel - ('emmanuelle': 5752, 'sebastian': 5578) 


tel['francis'] = 5915 
tel 


Out[74]: 


('emmanuelle': 5752, 'francis': 5915, 'sebastian': 


In [75]: 


tel['sebastian'] 


Out[75]: 


5578 


In [76]: 


tel.keys() 


Out[76]: 


['sebastian', 'francis', 'emmanuelle'] 


In [77]: 


tel.values() 


Out[77]: 


5578) 


[5578, 5915, 5752] 


它 可 以 方便 的 以 名 字 〈 日 期 的 字符 和 名 称 等 ) 存储 和 获取 值 。 更 多 信息 见 


http://docs.python.org/tutorial/datastructures.html#dictionaries. 
一 个 字典 的 键 (代表 值 ) 可 以 有 不 同 的 类 型 : 
In [78]: 


d = ['a':1, 'b':2, 3:'hello'} 
d 


Out[78]: 


iso CLL Gi acc. unpEssc2 


1.2.2.2.4. More container types 
元 组 

元 组 本 质 上 是 不 可 变 列表 。 元 组 的 元 素 用 括号 包 起 来 ， 或 者 只 是 用 逗号 分 割 : 
In [79]: 


t - 12345, 54321, 'hello!' 
t[0] 


Out[79]: 


12345 


In [80]: 


t 


Out[80]: 


(12345, 54321, 'hello!') 


In [81]: 


u - (0, 2) 
集合 : 无 序 ， 惟 一 项 目 : 
In [82]: 


s - set(('a', "S ons "at y) 
S 


Out[82]: 
iar, D gious 
In [83]: 


s.difference(('a', 'b')) 


Out[83]: 


{'c'} 


1.2.2.3. 赋值 运算 
Python 类 库 参 考 : 
赋值 语句 被 用 于 (E) 绑 定 名 称 与 值 ， 以 及 修改 可 变 对 象 的 项 目 或 属性 。 
简单 来 说 ， 它 这 样 工作 〈 简 单 赋值 ) 
1. 右 侧 表达 式 被 评估 ， 创 建 或 获得 产生 的 对 象 
2. 左 侧 的 名 字 被 赋值 或 绑 定 到 右 侧 的 对 象 


需要 注意 的 事情 : 

e. 单个 对 象 可 以 有 多 个 绪 定 的 名 称 : 
In [84]: 

a = [1, 2, 3] 

b=a 


a 


Out[84]: 
[1, 2, 3] 
In [85]: 
b 
Out[85]: 
[1, 2, 3] 
In [86]: 
a is b 
Out[86]: 
True 
In [87]: 


b[1] = 'hi!' 
a 


Out[87]: 
[1 0 00937] 
e 要 在 原 地 改变 列表 ， 请 使 用 索引 或 切片 : 
In [88]: 


a= [1, 2, 3] 
a 


Out[88]: 


[1, 2, 3] 


In [89]: 


a = ['a', 'b', 'c'] # 创建 另 一 个 对 象 


Out[89]: 
[gd sep 
In [90]: 
id(a) 
Out[90]: 
4394695640 
In [91]: 


a[:] = [1, 2, 3] & 在 原 地 修改 对 象 
Q 


Out[91]: 


[1, 2, 3] 


In [92]: 


id(a) 


Out[92]: 


4394695640 


与 上 一 个 id 相同 ， 你 的 可 能 有 所 不 同 … 
e 这 里 的 关键 观点 是 可 变 vs. 不 可 变 


o 可 变 对 象 可 以 在 原 地 修改 
o 不 可 变 对 象 一 旦 被 创建 就 不 可 修改 


更 多 内 容 在 David M. Beazley 的 文章 Python 中 的 类 型 和 对 象 中 也 可 以 找到 关于 以 上 
问题 非常 不 错 的 详尽 解释 。 


1.2.3 流程 控制 
控制 代码 执行 顺序 。 


1.2.3.1 if/elif/else 
In [93]: 


ado 2 4n 
print 'Obvious!' 


Obvious! 


代码 块 用 缩 进 限定 
小 技巧 : 在 你 的 Python 解释 器 内 输入 下 列 行 ， 并 且 注 意 保 持 缩 进 深度 。IPython 
shell 会 在 一 行 的 : 符号 后 自动 增加 缩 进 ， 如 果 要 减少 缩 进 ， 向 左 侧 移动 4 个 空格 使 
用 后 退 键 。 按 两 次 回 车 键 离 开 逻 辑 块 。 
In [96]: 
a = 10 
if a -- 1: 
print(1) 
elif a -- 2: 
print(2) 


else: 
print('A lot') 


A lot 


在 脚本 中 也 是 强制 缩 进 的 。 作 为 练习 ， 在 condition.py 脚 本 中 以 相同 的 缩 进 重新 输入 
之 前 几 行 ， 并 在 IPython 中 用 run condition.py 执行 脚本 。 


1.2.3.2 for/range 


在 素 引 上 和 迭代 : 
In [97]: 


for i in range(4): 
print(i) 


UNEO 


但 是 最 经 常 使 用 ， 也 更 易 读 的 是 在 值 上 迭代 : 
In [98]: 


for word in ('cool', 'powerful', 'readable'): 
print('Python is %s' 96 word) 


Python is cool 
Python is powerful 
Python is readable 


1.2.3.3 while/break/continue 


典型 的 C 式 While 循环 (Mandelbrot 问 题 ) 


In [13]: 
z=1+ 1] 
while abs(z) < 100: 


A = 
Z 


Out[13]: 
( -1344352j) 
更 高 级 的 功能 


bread 跳出 forwhile 循 环 : 
In [103]: 


z=1+ 1j 
while abs(z) « 100: 
if z.imag -- 60: 
break 
Z zUNA HOT 
print z 


(1+2]j ) 
(-2*43) 
(-11-16j) 
(-1344352j) 


continue 继续 下 一 个 循环 迭代 : 


In [101]: 


Quadro Do T) 
for element in a: 
if element -- 0: 
continue 
print 1. / element 


(oo 
N 0 O 
Ol 


1.2.3.4 条 件 表达 式 
if [OBJECT] : 
评估 为 False : 


任何 等 于 0 的 数字 (0. 0.0, 0+0j) 
m 空 容器 (列表 、 元 组 、 集合 、 FTH, 
- False, None 


评估 为 True : 


- 任何 其 他 的 东西 


a == 


判断 逻辑 是 否 相 等 : 
In [1]: 


jb ee» di 


Out[1]: 


True 


ais b: 
测试 同一 性 : 两 边 是 相同 的 对 象 : 
In [2]: 


1is1 


Out[2]: 


True 


In [3]: 


m 


a 
b 
a is b 
Out[3]: 
True 
ainb: 


对 于 任何 集合 b : b 包 含 a 
In [11]: 


b= [1, 2, 3] 
2 in b 


Out[11]: 


True 
In [12]: 
S ain i 
Out[12]: 
False 
如 果 b 是 字典 ， 这 个 语法 测试 a 是 否 是 b 的 一 个 键 。 
1.2.3.5. 高 级 循环 


1.2.3.5.1 序列 循环 


你 可 以 在 任何 序列 上 进行 循环 字符、 列表 、 字 典 的 键 ， 文 件 的 行 .… 


In [14]: 


vowels - 'aeiouy' 
for i in 'powerful': 
if i in vowels: 


print(i), 
oeu 
In [15]: 
message = "Hello how are you?" 


message.split() # 返回 一 个 列表 


Out[15]: 


['Hello', 'how', 'are', 'you?'] 


In [16]: 


) 


for word in message.split(): 
print word 


Hello 
how 
are 
you? 


很 少 有 语言 (特别 是 科学 计算 语言 ) 人 允许 在 整数 或 素 引 之 外 的 循环 。 在 Python 中 ， 
可 以 在 感 兴 趣 的 对 象 上 循环 ， 而 不 用 担心 你 通常 不 关心 的 索引 。 这 个 功能 通常 用 来 
让 代码 更 易 读 。 


警告 : 改变 正在 循环 的 序列 是 不 安全 的 。 
1.2.3.5.2 跟踪 列举 数 
通常 任务 是 在 一 个 序列 上 循环 ， 同 时 跟踪 项 目 数 。 

- 可 以 像 上 面 ， 使 用 带 有 计数 器 的 while 循 环 。 或 者 一 个 for 循 环 : 
In [17]: 


words = ('cool', 'powerful', 'readable') 
for i in range(0, len(words)): 
print i, words[i] 


0 cool 
1 powerful 
2 readable 


但 是 ，Python 为 这 种 情况 提供 了 enumerate 关 键 词 : 
In [18]: 


for index, item in enumerate(words): 
print index, item 


0 cool 
1 powerful 
2 readable 


1.2.3.5.3 字典 循环 


使 用 iteritems : 
In [19]: 
da ere MES MEM 


for key, val in d.iteritems(): 
print('Key: %s has value: %s' % (key, val)) 


Key: a has value: 1 
Key: c has value: 1j 
Key: b has value: 1.2 


1.2.3.5.4 列表 理解 
In [20]: 

[i**2 for i in range(4)] 
Out[20]: 


[0, 1, 4, 9] 


练习 
用 Wallis 公 式 ， 计 算 T 的 小 数 


oo 1-9 
42^ 


1.2.4. 定义 函数 


1.2.4.1 函数 的 定义 


In [21]: 


def test(): 
print('in test function!) 


test() 


in test function 


注意 : 函数 块 必须 像 其 他 流程 控制 块 一 样 缩 进 


1.2.4.2 5x [B]; ^n 


函数 可 以 选择 返回 值 。 
In [22]: 


def disk area(radius): 
return 3.14 * radius * radius 


disk area(1.5) 


Out[22]: 


7.0649999999999995 


E 
2t 


FAU Bk 
注意 : 注意 定义 图 数 的 语法 : 


e def 关 键 字 : 
。 接 下 来 是 函数 的 名 称 ， 然 后 
e 在 冒号 后 是 在 括号 中 的 函数 的 参数 。 


[B] None 。 


函数 体 ; 
以 及 可 选 返回 值 的 返回 对 象 


1.2.4.3 参数 


必 选 参数 〈 位 置 参 数 ) 
In [24]: 


def double it(x): 
return x * 2 


double it(3) 


Out[24]: 


In [25]: 


double it() 


TypeError Traceback (most recent c: 
«ipython-input-25-51cdedbb81b0» in <module>() 
----> 1 double it() 


TypeError: double it() takes exactly 1 argument (0 given) 





可 选 参数 (关键 词 和 命名 参数 ) 
In [26]: 
def double it(x-2): 


return x * 2 


double it() 


Out[26]: 


In [27]: 


double it(3) 


Out[27]: 


关键 词 参数 允许 你 设置 特定 黑 认 值 。 
警告 : 默认 值 在 函数 定义 时 被 评估 ， 而 不 是 在 调用 时 。 如 果 使 用 可 变 类 型 FR 
或 列表 ) 并 在 函数 体内 修改 他 们 ， 这 可 能 会 产生 问题 ， 因 为 这 个 修改 会 在 函数 被 引 
用 的 时 候 一 直 持 续 存 在 。 
在 关键 词 参数 中 使 用 不 可 变 类 型 : 
In [2]: 

bigx = 10 

def double it(x-bigx): 

return x * 2 


bigx = 1e9 # 现在 真 的 非常 大 
double it() 


Out[2]: 

20 
在 关键 词 参数 中 使 用 可 变 类 型 (并 且 在 函数 体内 修改 它 ) 
In [3]: 


def add to dict(args-('a': 1, 'b': 23): 
for i in args.keys(): 
args[i] *- 1 
print args 


add to dict 


Out[3]: 


«function main .add to dict» 





In [4]: 


add to dict() 


In [5]: 


add to dict() 


In [6]: 


add to dict() 


更 复杂 的 例子 ， 实 现 Python 的 切片 : 
In [7]: 


def slicer(seq, start=None, stop=None, step=None): 
"""Implement basic python slicing.""" 
return seq[start:stop:step] 


rhyme - 'one fish, two fish, red fish, blue fish'.split() 


rhyme 
Out[7]: 

[ y one ps SEWOS shared» is ee blue fasi 
In [8]: 

slicer(rhyme) 
Out[8]: 

[ione fishn I pO E EIS a ano ee flush e Die rS 


In [9]: 


slicer(rhyme, step-2) 
Out[9]: 

['one', 'two', 'red', 'blue'] 
In [10]: 

slicer(rhyme, 1, step-2) 
Out[10]: 

[Eon aS TEpS etd. ones 
In [11] 

slicer(rhyme, start=1, stop-4, step-2) 
Out[11] 

[esed aree ers T es] 
关键 词 参数 的 顺序 不 重要 : 
In [12]: 

slicer(rhyme, step-2, start=1, stop-4) 
Out[12]: 

age cda) ae em pla ic] RET 
但 是 ， 最 好 是 使 用 与 画 数 定义 相同 的 顺序 。 
关键 词 参数 是 特别 方便 的 功能 ， 可 以 用 可 变数 量 的 参数 来 定义 一 个 汞 数 ， 特 别 是 当 
阔 数 据 绝 大 多 数 调 用 都 会 使 用 默认 值 时 。 


1.2.4.4 值 传递 


可 以 在 一 个 函数 内 部 改变 变量 的 值 吗 ? 大 多 数 语 言 (C. Java.) 区 分 了 “ 值 传 
递 “ 和 ?引用 传递 "。 在 Python 中 ， 没 有 严格 的 这 种 区 分 ， 并 且 视 你 的 变量 是 否 会 修改 
而 有 一 些 不 同 。 和 幸运 的 是 ， 这 些 情况 存在 明确 的 规则 。 


函数 的 参数 是 对 象 的 引用 ， 传 递 的 是 值 。 当 你 像 一 个 函数 传递 了 一 个 变量 ，Python 
传递 的 是 对 象 的 引用 ， 这 个 对 象 引用 的 变量 ( 值 ) 。 而 不 是 变量 本 身 。 


如 果 值 传递 给 函数 的 值 是 不 可 变 的 ， 那 么 这 个 函数 并 不 会 改变 调用 者 的 变量 。 如 果 
值 是 可 变 的 ， 那 么 画 数 将 可 能 在 原 地 修改 调用 者 的 变量 。 


In [13]: 


def try to modify(x, y, z): 
x = 23 
y.append(42) 
z = [99] & 新 引用 
print(x) 
print(y) 
print(z) 


77 # 不 可 变 变量 
[99] # 可 变 变量 
[28] 

ry to modify(a, b, c) 


a 
b 
C 
t 


23 
[99, 42] 
[99] 


In [14]: 
print(a) 
77 

In [15]: 
print(b) 
[99, 42] 


In [16]: 


print(c) 


[28] 


HAAS 25 local namespace] 71th ¥ BR. 
RBXREEFWMtry_to_modifyAR. 
1.2.4.5 & E 
在 范 数 外 定义 的 变量 可 以 在 函数 内 引用 : 

In [18]: 

X = 5 


def addx(y): 
return x + y 


addx(10) 
Out[18]: 

15 

(AS, ESAERAN, BRIE RAA global, 


这 样 没 用 : 
In [19]: 


def setx(y): 
x=y 
print('x is %d' % x) 


setx(10) 


X is 10 


In [20]: 


X 


Out[20]: 


这 样 可 以 : 
In [21]: 


def setx(y): 
global x 


X = y 
print('x is %d' 96 x) 


setx(10) 


X is 10 


In [22]: 


Out[22]: 


10 


1.2.4.6 可 变数 量 参数 
OSS : 


- *args : 封装 成 元 组 的 任意 数量 的 位 置 参数 
- **kwargs : 封装 成 字典 的 任意 数量 的 关键 词 参数 


In [23]: 


def variable args(*args, **kwargs): 
print 'args is', args 
print 'kwargs is', kwargs 


variable args('one', 'two', x=1, y-2, z-3) 


args is ('one', 'two') 
kwangs is Eyi k 2 Ux cepe 


1.2.4.7 Docstrings 


XE ERZAU/E FH CB ZB N. A RA: 
In [24]: 


def funcname(params): 
"""Concise one-line sentence describing the function. 
Extended summary which can contain multiple paragraphs. 


# 图 数 体 
pass 
funcname? 
Type: function 
Base Class: type 'function'> 
String Form: «function funcname at Oxeaa0f0- 
Namespace: Interactive 
File: «ipython console» 
Definition: funcname(params) 
Docstring: 


Concise one-line sentence describing the function. 


Extended summary which can contain multiple paragraphs. 


注 Docstring 指导 


为 了 标准 化 ，Docstring 惯例 页 面 为 Python Docstring 相 关 的 含义 及 惯例 提供 了 文 
F5, 


Numpy 和 Scipy 模 块 也 为 科学 计算 函数 定义 了 清晰 的 标准 ， 你 可 能 想 要 在 自己 的 孙 
数 中 去 遵循 ， 这 个 标准 有 参数 部 分 ， 例 子 部 分 等 。 见 
http://projects.scipy.org/numpy/wiki/CodingStyleGuidelines#docstring-standard & 
http://projects.scipy.org/numpy/browser/trunk/doc/example.py#L37 


1.2.4.8 函数 作为 对 象 
画 数 是 一 级 对 象 ， 这 意味 着 他 们 可 以 是 : 


- 可 以 被 赋值 给 变量 
- 列表 的 一 个 项 目 (或 任何 集合 ) 
- 作为 参数 传递 给 另 一 个 图 数 


In [26]: 


va - variable args 


va('three', x-1, y=2) 


args is ('three',) 
kwargs is {'y': 2, 'x': 1} 


1.2.4.9 方法 
方法 是 对 象 的 函数 。 你 已 经 在 我 们 关于 列表 、 字 典 和 字符 等 .…… 的 例子 上 看 到 了 。 


1.2.4.10. 练习 


练习 : 斐 波 那 契 数列 
E-NR RRE RRA NANT AA, CLE : 


ui1-1 


021; 
—(nr2) = u (nr1) + un 


练习 : 快速 排序 
实现 快速 排序 算法 ， 定 义 来 自 wikipedia : 
function quicksort(array) 
var list less, greater if length(array) « 2 
return array 
select and remove a pivot value pivot from array for each x in arr: 
if x < pivot + 1 then append x to less else append x to greatei 


return concatenate(quicksort(less), pivot, quicksort(greater)) 


本 ee 








1.3 NumPy : 创建 和 操作 数值 数据 


作者 : Emmanuelle Gouillart, Didrik Pinte. Gaél Varoquaux 和 Pauli 


Virtanen 


本 章 给 出 关于 Numpy 概 述 ，Numpy 是 Python 中 高 效 数值 计算 的 核心 工具 


1.3.1 Numpy 数组 对 象 


1.3.1.1 什么 是 Numpy 以 及 Numpy 数 组 ? 


1.3.1.1.1 Numpy 数 组 


Python 对 象 : 


e 高 级 数值 对 象 : 整数 、 
e 容器 : sig CERHCEBO RUD ， 


Numpy 提 供 : 


e 对 于 多 维度 数组 的 Python 扩展 包 
e 更 贴近 硬件 (高 效 ) 

e 为 科学 计算 设计 (方便 ) 

e 也 称 为 面向 数组 计算 


In [1]: 
import numpy as np 


a - np.array([0, 1, 2, 3]) 
a 


Out[1]: 


array([0，1，2，3]) 


例如 ， 数 组 包含 : 

实验 或 模拟 在 离散 时 间 阶 段 的 值 
测量 设备 记录 的 信号 ， 上 比如 声波 
图 像 的 像素 、 灰 度 或 颜色 


字典 (快速 查找 ) 


用 不 同 X-Y-Z 位 置 测 量 的 3-D 数 据 ， 例 如 MRI 扫描 


为 什么 有 用 : 提供 了 高 速 数值 操作 的 节省 内 存 的 容器 。 
In [2]: 
L - range(1000) 


9€ timeit [i**2 for i in L] 


10000 loops, best of 3: 93.7 us per loop 


In [4]: 


a - np.arange(1000) 
9 timeit a**2 


100000 loops, best of 3: 2.16 us per loop 


1.3.1.1.2 Numpy 2 x f 


e 线 上 : http://docs.scipy.org/ 
e 交互 帮助 : 


np.array? 

String Form:«built-in function array» 

Docstring: 

array(object, dtype=None, copy=True, order=None, subok-False, ndmir 


Aoo ëR 





查找 东西 : 
In [6]: 


np.lookfor('create array!) 


Search results for 'create array' 
numpy.array 

Create an array. 
numpy .memmap 

Create a memory-map to an array stored in a *binary* file on d: 
numpy.diagflat 

Create a two-dimensional array with the flattened input as a d: 
numpy.fromiter 


Create a new 1-dimensional array from an iterable object. 
numpy.partition 

Return a partitioned copy of an array. 
numpy.ma.diagflat 

Create a two-dimensional array with the flattened input as a d: 
numpy.ctypeslib.as array 

Create a numpy array from a ctypes array or a ctypes POINTER. 
numpy.ma.make mask 

Create a boolean mask from an array. 
numpy.ctypeslib.as ctypes 

Create and return a ctypes object from a numpy array. Actually) 
numpy.ma.mrecords.fromarrays 

Creates a mrecarray from a (flat) list of masked arrays. 
numpy.lib.format.open memmap 

Open a .npy file as a memory-mapped array. 
numpy.ma.MaskedArray. new . 

Create a new masked array from scratch. 
numpy.lib.arrayterator.Arrayterator 

Buffered iterator for big arrays. 
numpy.ma.mrecords.fromtextfile 

Creates a mrecarray from data stored in the file “filename. 
numpy.asarray 

Convert the input to an array. 
numpy.ndarray 

ndarray(shape, dtype-float, buffer=None, offset=0, 
numpy.recarray 

Construct an ndarray that allows field access using attributes 
numpy.chararray 

chararray(shape, itemsize-1, unicode-False, bufferzNone, offset 
numpy . pad 

Pads an array. 
numpy . sum 

Sum of array elements over a given axis. 
numpy .asanyarray 

Convert the input to an ndarray, but pass ndarray subclasses tl 


numpy . copy 
Return an array copy of the given object. 

numpy . diag 
Extract a diagonal or construct a diagonal array. 

numpy . load 
Load arrays or pickled objects from "'.npy^/, ``.npz`ò` or pick. 


numpy.sort 

Return a sorted copy of an array. 
numpy.array equiv 

Returns True if input arrays are shape consistent and all elem: 
numpy.dtype 

Create a data type object. 
numpy.choose 

Construct an array from an index array and a set of arrays to « 
numpy.nditer 

Efficient multi-dimensional iterator object to iterate over arı 
numpy.swapaxes 

Interchange two axes of an array. 


numpy.full like 

Return a full array with the same shape and type as a given ar! 
numpy.ones like 

Return an array of ones with the same shape and type as a giver 
numpy.empty like 

Return a new array with the same shape and type as a given arr: 
numpy.zeros like 

Return an array of zeros with the same shape and type as a give 
numpy.asarray chkfinite 

Convert the input to an array, checking for NaNs or Infs. 
numpy.diag indices 

Return the indices to access the main diagonal of an array. 
numpy.ma.choose 

Use an index array to construct a new array from a set of choic 
numpy.chararray.tolist 

a.tolist() 
numpy.matlib.rand 

Return a matrix of random values with given shape. 
numpy.savez compressed 

Save several arrays into a single file in compressed ~~.npz ' 1 
numpy.ma.empty like 

Return a new array with the same shape and type as a given arr: 
numpy.ma.make mask none 

Return a boolean mask of the given shape, filled with False. 
numpy.ma.mrecords.fromrecords 

Creates a MaskedRecords from a list of records. 
numpy.around 

Evenly round to the given number of decimals. 
numpy.source 

Print or write to a file the source code for a Numpy object. 
numpy.diagonal 

Return specified diagonals. 
numpy.histogram2d 

Compute the bi-dimensional histogram of two data samples. 
numpy.fft.ifft 

Compute the one-dimensional inverse discrete Fourier Transform 
numpy.fft.ifftn 

Compute the N-dimensional inverse discrete Fourier Transform. 
numpy .busdaycalendar 

A business day calendar object that efficiently stores informal 


天 Eee EE 





np.con*? 
np.concatenate 
np.conj 
np.conjugate 
np.convolve 


1.3.1.1.3 导入 惯例 


导 和 numpy 的 推荐 惯例 是 : 
In [8]: 


import numpy as np 


1.3.1.2 创建 数组 


1.3.1.2.1 手动 构建 数组 
e 1-D: 
In [9]: 


a = np.array([0, 1, 2, 3]) 
a 


Out[9]: 
array([0, 1, 2, 3]) 
In [10]: 
a.ndim 
Out[10]: 
1 
In [11]: 
a.shape 
Out[11]: 
(4,) 


In [12]: 


len(a) 


Out[12]: 


4 


。2-D，3-D，.… : 
In [13]: 


b = np.array([[0，1，2]，[3，4，5]]) # 2 x 3 数组 
b 


Out[13]: 


array([[0, 1, 2], 
[3, 4, 5]]) 


In [14]: 


b.ndim 
Out[14]: 
2 
In [15]: 
b.shape 
Out[15]: 
(2, 3) 
In [16]: 


len(b) # 返回 一 个 纬度 的 大 小 


Out[16]: 


2 


In [17]: 


c = np.array([[[1], [2]], [[3], [4]]]) 


C 
Out[17]: 
array([[[1], 
[21], 
[[3], 
[4]]]) 
In [18]: 
c.shape 
Out[18]: 
(2, 2, 1) 


练习 : 简单 数组 


e 创建 一 个 简单 的 二 维 数 组 。 首 先 ， 重 复 上 面 的 例子 。 然 后 接着 你 自己 的 : 在 第 
一 行 从 后 向 前 数 奇数 ， 接 着 第 二 行 数 偶数 ? 

e 在 这 些 数组 上 使 用 函数 len()、numpy.shape()。 他 们 有 什么 关系 ?与 数组 
的 ndim 属性 间 呢 ? 


1.3.1.2.2 创建 数组 的 落 数 

实际 上 ， 我 们 很 少 一 个 项 目 接 一 个 项 目 输 入 .… 
。 均匀 分 布 : 

In [19]: 


a = np.arange(10) #0 .. n-1 (!) 
a 


Out[19]: 
array ( pgs 12 3 4257 50: 48:9] 
In [20]: 


b = np.arange(1, 9, 2) # 开始 ， 结 束 (AAS), HK 
b 


Out[20]: 


array([1, 3, 5, 7]) 


e 或 者 通过 一 些 数 据点 : 
In [1]: 


c = np.linspace(0, 1, 6) # 起 点 、 终 点 、 数 据点 
C 


Out[1]: 
artav( p. Ov, 0:2 MOA 2030/8 70:8 X BS) 
In [2]: 


d - np.linspace(0, 1, 5, endpoint-False) 
d 


Out[2]: 
array([ O\，， 0.2, 0.4, 0.6, 0.8]) 
。 普通 数组 : 

In [3]: 


a = np.ones((3, 3)) # 提示 : (3, 3) 是 元 组 
a 


Out[3]: 


array([ 


[ HM , T. 
[ 1., 1., 1.], 
[ 1., 1., 1.]]) 
In [4]: 
b = np.zeros((2, 2)) 
b 
Out[4]: 
array([[ ©., 9.], 
[ 0., 0.]]) 
In [5]: 
c = np.eye(3) 
C 
Out[5]: 
array([[ 1., ©., 90.], 
[ 0., 1., 0.], 
[ 0., 0., 1.]]) 
In [6]: 
d = np.diag(np.array([1, 2, 3, 4])) 
d 
Out[6]: 
array([[1, ©, ©, 0], 
, 27 0, 0], 
[0, 0, 3, 0], 
[0, 0, 0, 4]]) 


e np.random : 随机 数 (Mersenne Twister PRNG) : 
In [7]: 


a - np.random.rand(4) # [0, 1] 的 均匀 分 布 
a 


Out[7]: 
array([ 0.05504731, ©.38154156, 0.39639478, 0.22379146]) 


In [8]: 


b = np.random.randn(4) # 高 斯 
b 


Out[8]: 


array([ 0.9895903 , 1.85061188, 1.0021666 , -0.63782069]) 


In [9]: 


np.random.seed(1234) # 设置 随机 种 子 


In [10]: 


np.random.rand? 


练习 : A OL EE SUR. 


实验 用 arange, linspace 、 ones, zeros, eye 和 diag o 
用 随机 数 创 建 不 同类 型 的 数组 。 

在 创建 带 有 随机 数 的 数组 前 设 定 种 子 。 

@— FAR np.empty 。 它 能 做 什么 ?什么 时 候 会 比较 有 用 ? 


1.3.1.3 基 础 数据 类 型 


你 可 能 已 经 发 现 ， 在 一 些 情况 下 ， 数 组 元 素 显 示 带 有 点 ( 即 2. VS 2) 。 这 是 因为 
所 使 用 的 数据 类 型 不 同 : 


In [12]: 


a - np.array([1, 2, 3]) 
a.dtype 


Out[12]: 


dtype('int64') 


In [13]: 


b = np.array([1., 2., 3.]) 
b 


Out[13]: 


array([ 1., 2., 3.]) 


不 同 的 数据 类 型 可 以 更 紧凑 的 在 内 存 中 存储 数据 ， 但 是 大 多 数 时 候 我 们 都 只 是 操作 
浮 点 数据 。 注 意 ， 在 上 面 的 例子 中 ，Numpy 自 动 从 输入 中 识别 了 数据 类 型 。 


你 可 以 明确 的 指定 想 要 的 类 型 : 
In [1]: 


c = np.array([1, 2, 3], dtype=float) 
c.dtype 


Out[1]: 

dtype('float64') 
默认 数据 类 型 是 浮 点 : 
In [2]: 


a - np.ones((3, 3)) 
a.dtype 


Out[2]: 


dtype('float64') 


= np.array([1+2j, 3+4j, 5+6*1j]) 
.dtype 


Out[4]: 
dtype('complex128') 

布尔 : 

In [5]: 


e - np.array([True, False, False, True]) 
e.dtype 


Out[5]: 


dtype('bool') 


= np.array(['Bonjour', 'Hello', 'Hallo',]) 
.dtype # <--- 包含 最 多 7 个 字母 的 字符 


Out[6]: 


dtype('S7') 


更 多 : 


int32 
int64 
unit32 
unit64 


1.3.1.4 基 本 可 视 化 
现在 我 们 有 了 第 一 个 数组 ， 我 们 将 要 进行 可 视 化 。 


Mpylabt& x5 & z»IPython, 


ipython --pylab 


或 notebook : 

ipython notebook --pylab-inline 
或 者 如 果 IPython 已 经 启动 ， 那 么 : 
In [119]: 


?6py lab 


Using matplotlib backend: MacOSX 
Populating the interactive namespace from numpy and matplotlib 


或 者 从 Notebook 中 : 
In [121]; 


%pylab inline 


Populating the interactive namespace from numpy and matplotlib 
inline 对 notebook 来 说 很 重要 ， 以 便 绘 制 的 图 片 在 notebook 中 显示 而 不 是 在 新 
窗口 显示 。 
Matplotlib 是 2D 制 图 包 。 我 们 可 以 像 下 面 这 样 导 入 它 的 方法 : 
In [10]: 


4 


import matplotlib.pyplot as plt # 整 洁 形 式 


然后 使 用 〈 注 你 需要 显 式 的 使 用 show ) : 


plt.plot(x, y) # XA 
plt.show() # «-- 显示 图 表 (使 用 pylab 的 话 不 需要 ) 


或 者 ， 如 果 你 使 用 pylab 


plt.plot(x, y) # 线 图 


在 脚本 中 推荐 使 用 import matplotlib.pyplot as plt 。 而 交互 的 探索 性 工作 
中 用 pylab 。 


e 1D 作 图 : 
In [12]: 
np.linspace(0, 3, 20) 


y np.linspace(0, 9, 20) 
plt.plot(x, y) # RE 


X 


Out[12]: 


[<matplotlib.lines.Line2D at 0x1068f38d0>] 











In [13]: 


plt plot(x, y, 'o') # 点 图 


Out[13]: 


[<matplotlib.lines.Line2D at 0x106b32090>] 


05 10 15 20 25 30 


e 2D 作 图 : 
In [14]: 


image = np.random.rand(30, 30) 
plt.imshow(image, cmap-plt.cm.hot) 
plt.colorbar() 


Out[14]: 


«matplotlib.colorbar.Colorbar instance at 0x106a095f0> 








更 多 请 见 matplotlib 部 分 (47 Hk) 

练习 : 简单 可 视 化 

男 出 简单 的 数组 : cosine 作 为 时 间 的 一 个 函数 以 及 2D 和 矩阵。 
在 2D 和 矩阵 上 试 试 使 用 gray colormap. 


1.3.1.55& 8 RI F 


4 2 NliimDy ^ ZÆ Xn ton A/E KH Ve KH dB eR 
JO INU n ry UJ Xs MY T2 1 F UA 18 SX TIA 00 


数组 的 项 目 可 以 用 与 其 他 Python 序列 (比如 : 列表 ) 一 样 的 方式 访问 和 赋值 : 
In [15]: 


a - np.arange(10) 
a 


Out[15]: 

array (lor ay 2 3,45 09522487919 
In [16]: 

a[0], a[2], a[-1] 
Out[16]: 


(0, 2, 9) 


警告 : 索引 从 0 开始 与 其 他 的 Python 序 列 ( 以 及 C/C++) 一 样 。 相 反 ， 在 Fortran 或 
者 Matlab 索 引 从 1 开始 。 


使 用 常用 的 Python 风 格 来 反 转 一 个 序列 也 是 支持 的 : 
In [17]: 


a[::-1] 
Out[17]: 


array E97 (8) 6, oy 45 on oe oe, 0) 


对 于 多 维 数 组 ， 索 引 是 整数 的 元 组 : 
In [18]: 


a - np.diag(np.arange(3)) 
a 


Out[18]: 


array([[0, 0, 0], 


[0 sly 0], 
[0, 0, 2]]) 
In [19]: 
a[1, 1] 
Out[19]: 
1 
In [21]: 


a[2, 1] = 10 # 第 三 行 ， 第 二 列 
a 


Out[21]: 

array([[ ©, ©, 0], 
EQ i Ol; 
[ ©, 10, 2]]) 

In [22]: 

a[1] 

Out[22]: 


array([0, 1, 0]) 


SUN 
ys : 


。 在 2D 数 组 中 ， 第 一 个 纬度 对 应 行 ， 第 二 个 纬度 对 应 列 。 
e 对 于 多 维度 数组 a ，a[0] 被 解释 为 提取 在 指定 纬度 的 所 有 元 素 


切片 : 数组 与 其 他 Python 序列 也 可 以 被 切片 : 
In [23]: 


a - np.arange(10) 
a 


Out[23]: 


array (Oy te 201:9. Ae S Or NEEDS 


In [24]: 


a[2:9:3] # [开始 :结束 : 步 长 ] 


Out[24]: 


array([2, 5, 8]) 


注意 最 后 一 个 索引 是 不 包含 的 ! : 


In [25]: 


a[:4] 


Out[25]: 


array([0, 1, 2, 3]) 


切片 的 三 个 元 素 都 不 是 必 选 : 默认 情况 下 ， 起 点 是 0， 


In [26]: 


a[1:3] 


Out[26]: 


array([1, 2]) 


In [27]: 


a[::2] 


结束 是 最 后 一 个 ， 


Out[27]: 
array([0, 2, 4, 6, 8]) 
In [28]: 
a[3:] 
Out[28]: 
array([3, 4, 5, 6, 7, 8, 9]) 


Numpy 索 引 和 切片 的 一 个 小 说 明 ..… 


>>> a[0,3:5] 
array([3,4]) 





»»» a[4:,4:] 
array([[44, 45], 
[54,..55]1]) 


>>> a[:,2] 
array([2,12,22,32,42,52]) 


>>> a[2::2,::2] 
array([[20,22,24] 
[40,42,44]]) 





赋值 和 切片 可 以 结合 在 一 起 : 


In [29]: 
a = np.arange(10) 
a[5:] = 10 
a 

Out[29]: 


array([ 0, 1, 2, 3, 4, 10, 10, 10, 10, 10]) 


In [30]: 


b - np.arange(5) 
a[5:] = b[::-1] 
a 


Out[30]: 


array (lor do 2 Sa a el 


练习 : 索引 和 与 切片 


e 试 试 切片 的 特色 ， 用 起 点 、 结 束 和 步 长 : 从 linspace 开 始 ， 试 着 从 后 往 前 获得 
奇数 ， 从 前 往 后 获得 偶数 。 重 现 上 面 示例 中 的 切片 。 你 需要 使 用 下 列表 达 式 创 
建 这 个 数组 : 


In [31]: 


np.arange(6) + np.arange(0, 51, 10)[:, np.newaxis] 


Out[31]: 


arva DEO md a TA, 
Ho, uh 125 135514 V T5 ]- 
[20, 21, 22, 23, 24, 25], 
[30, 31, 32, 33, 34, 35], 
[40, 41, 42, 43, 44, 45], 
[50, 51, 52, 53, 54, 55]]) 


练习 : 数组 创建 
创建 下 列 的 数组 〈 用 正确 的 数据 类 型 ) 


HE ee E 
pro moe pp 
[i di dq 2]. 

Ee «LA 3] 

[[0., O., 0., 0., 0.], 
[2.0548 dou, 
[0 3 O 0] 
(oie i el EON 
[os 8.7 @-,°5., 9.]; 
[0., ©., ©., ©., 6.]] 


参考 标准 : 每 个 数组 

提示 : 每 个 数组 元 素 可 以 像 列 表 一 样 访 问 ， 即 a[1] 或 alt, 2]. 
提示 : 看 一 下 diag 的 文档 字符 串 。 

练习 : 创建 平 铺 数组 

看 一 下 np.tile 的 文档 ， 是 用 这 个 画 数 创 建 这 个 数组 : 


[[4, 3, 4, 3, 4, 3], 
[2, 1, 2, 1, 2, 1], 
[4, 3, 4, 3, 4, 3], 
[2, 1, 2, 1, 2, 1]] 


1.3.1.6 副本 和 视图 


切片 操作 创建 原 数组 的 一 个 视图 ， 这 只 是 访问 数组 数据 一 种 方式 。 因 此 ， 原 始 的 数 
组 并 不 是 在 内 存 中 复制 。 你 可 以 用 np.may share memory() 来 确认 两 个 数组 是 
否 共 享 相同 的 内 存 块 。 但 是 请 注意 ， 这 种 方式 使 用 启发 式 ， 可 能 产生 漏 报 。 


** 当 修改 视图 时 ， 原 始 数据 也 被 修改 : 
In [32]: 


a - np.arange(10) 
a 


Out[32]: 


array (iG), ii. 72, 305: 0-01 SEO 


Out[33]: 


array([0, 2, 4, 6, 8]) 


In [34]: 


np.may share memory(a, b) 
Out[34]: 
True 


In [36]: 


b[0] = 12 
b 


Out[36]: 
array([12, 2, 4, 6, 8]) 
In [37]: 
a # (!) 
Out[37]: 
array IIZ AR 27-034 34 oS. 16; fe o] 


In [38]: 


a - np.arange(10) 


c = a[::2].copy() # 强制 复制 
c[0] = 12 
a 

Out[38]: 


array Doris 2 rg do Sog m Beso 


In [39]: 


np.may share memory(a, c) 


Out[39]: 


False 


乍 看 之 下 这 种 行为 可 能 有 些 奇 怪 ， 但 是 这 样 做 节省 了 内 存 和 时 间 。 
实例 : 素数 筛选 
0123456 7 8 910111213 


3 EAIA EMEITME … 
4 EAA ARAA A E -+ 


VN 
用 筛选 法 计算 0-99 之 间 的 素数 
e 构建 一 个 名 为 _prime 形状 是 (100,) 的 布尔 数组 ， 在 初始 将 值 都 设 为 True : 


In [40]: 
is prime = np.ones((100,), dtype-bool) 
。 将 不 属于 素数 的 0%，1 去 掉 

In [41]: 
is prime[:2] = 0 

对 于 从 2 开始 的 整数 j ， 化 掉 它 的 倍数 : 

In [42]: 


N max - int(np.sqrt(len(is prime))) 
for j in range(2, N max): 
is prime[2*j::j] = False 


e 看 一 眼 help(np.nonzero) ， 然 后 打印 素数 
e 接 下 来 : 


o 将 上 面 的 代码 放 入 名 为 prime sieve.py 的 脚本 文件 
o 运行 检查 一 下 时 候 有 效 
o 使 用 埃 拉 托 斯 特 尼 得 法 的 优化 建议 

1. 跳 过 已 知 不 是 素数 的 j 

2. 第 一 个 应 该 被 划 掉 的 数 是 $j^2$ 


1.3.1.7 4 f ES 8| 


Numpy 数 组 可 以 用 切片 索引 ， 也 可 以 用 布尔 或 整形 数组 (面具) 。 这 个 方法 也 被 称 
为 象征 索引 。 它 创建 一 个 副本 而 不 是 视图 。 


1.3.1.7.1 使 用 布尔 面具 
In [44]: 


np.random.seed(3) 
a = np.random.random_integers(0, 20, 15) 
a 


Out[44]: 


array([10, 3, 8, ©, 19, 10, 11, 9, 10, 6, ©, 20, 12, 7, 14]. 
Aoo ë O 
In [45]: 


(a 96 3 == 0) 


Out[45]: 


array([False, True, False, True, False, False, False, True, Fal: 
True, True, False, True, False, False], dtype-bool) 


[ia ————————————————————— Wo 
In [47]: 





mask = (a % 3 == 0) 
extract from a = a[mask] 4 £x,  a[a93--0] 
extract from a # 用 面具 抽取 一 个 子 数组 


Out[47]: 


array([ 3, 0, 9, 6, ©, 12]) 
赋值 给 子 数 组 时 ， 用 面具 索引 非常 有 用 : 
In [48]: 


a[a%3== 0] = -1 
a 


Out[48]: 


array([10, -1, 8, -1, 19, 10, 11, -1, 10, -1, -1, 20, -1, 7, 14]. 
Aoo ë O 


1.3.1.7.2 用 整 型 数组 索引 


In [49]: 


a - np.arange(0, 100, 10) 
a 


Out[49]: 

array([ 0, 10, 20, 30, 40, 50, 60, 70, 80, 90]) 
索引 可 以 用 整 型 数组 完成 ， 其 中 相同 的 素 引 重复 了 几 次 : 
In [50]: 


a[[2，3，2，4，2]] # 注 : [2，3，2，4，2] 是 Python 列表 
Out[50]: 
array([20, 30, 20, 40, 20]) 


用 这 种 类 型 的 索引 可 以 分 配 新 值 : 
In [51]: 


a[[9, 7]] = -100 
a 


Out[b1]: 


array([ ©, 10, 20, 30, 40, 50, 60, -100, 80, -100] 
回 | 


当 一 个 新 数组 用 整 型 数组 索引 创建 时 ， 新 数组 有 相同 的 形状 ， 而 不 是 整数 数组 : 
In [52]: 


a - np.arange(10) 
idx = np.array([[3, 4], [9, 7]]) 
idx.shape 


Out[52]: 


(2, 2) 
In [53]: 
a[idx] 


Out[53]: 


array([[3, 4], 
[9, 7]]) 


下 图 展示 了 多 种 象征 索引 的 应 用 
>>> al(0,1,2,3,4),(1,2,3,4,5)] 
array([ 1, 12, 23, 34, 45]) 





>>> al3:,[0, 2, 5]] 

array([[30, 32, 35], 
[40, 42, 45]]) 
[50, 52, 55]]) 





>>> mask = array([1,0,1,0,0,1], 
dtype=bool) 





>>> a[mask,2] 
array([2,22,52]) 








练习 : 象征 索引 


e 同样 ， 重 新 生成 上 图 中 所 示 的 象征 索引 
e 用 左 侧 的 象征 索引 和 右 侧 的 数组 创建 在 为 一 个 数组 赋值 ， 例 如 ， 设 证 上 图 数组 
的 一 部 分 为 0。 


1.3.2 数组 的 数值 操作 
1.3.2.1 元 素 级 操作 


1.3.2.1.1 基础 操作 
标量 : 


In [54]: 


a = np.array([1, 2, 3, 4]) 
atti 


Out[54]: 

array([2, 3, 4, 5]) 
In [55]: 

2**a 
Out[55]: 


array([ 2, 4, 8, 16]) 


所 有 运算 是 在 元 素 级 别 上 操作 : 
In [56]: 


p.ones(4) + 1 


Out[56]: 


array([-1., 0., 1., 2.]) 


In [57]: 


Out[57]: 
array([ 2., 4., 6., 8.]) 
In [58]: 


j = np.arange(5) 
ZO ODE NI 


Out[58]: 


array([) 2, 3, 76; 13, 281) 


这 些 操作 当然 也 比 你 用 纯 Python 实 现 好 快 得 多 : 
In [60]: 


a = np.arange(10000) 
%timeit a + 1 


100000 loops, best of 3: 11 us per loop 


In [61]: 


l - range(10000) 
%timeit [i+1 for i in 1] 


1000 loops, best of 3: 560 ys per loop 


注意 : 数组 相 乘 不 是 和 矩阵 相 乘 : 
In [62]: 


c - np.ones((3, 3)) 


(ue # 不 是 矩阵 相 乘 ! 
Out[62]: 
PISCE NAG IE hey Le pa seule ify 
[ 1., 1., 1.], 
p isg SELLE 


ZEILE 


In [63]: 
c.dot(c) 
Out[63]: 
array([[ 3., 3., 3.], 
[ 3., 3., 3.], 
[ 3., 3., 3.]]) 


练习 : 元 素 级 别 的 操作 
e 试 一 下 元 素 级 别 的 简单 算术 操作 
e 用 %timeit 比 一 下 他 们 与 纯 Python 对 等 物 的 时 间 
e 生成 - 
o pop qr ucc 
o pask- 2 


1.3.2.1.2 其 他 操作 
对 比 : 
In [64]: 
np.array([1, 2, 3, 4 


aa 1) 
b = np.array([4, 2, 2, 4]) 
a= 


Out[64]: 


array([False, True, False, True], dtype=bool) 


In [65]: 


a > b 


Out[65]: 


array([False, False, True, False], dtype-bool) 


数组 级 别 的 对 比 : 
In [66]: 


np.array([1, 2, 3, 
np.array([4, 2, 2, 
np.array([1, 2, 3, 4 
p.array equal(a, b) 


4 
4 


a 1) 
b ] ) 
C 1) 
n 
Out[66]: 

False 
In [67]: 

np.array_equal(a, c) 
Out[67]: 


True 


逻辑 操作 : 
In [68]: 
np.array([1, 1, 0, 0], dtype-bool) 


np.array([1, 0, 1, 0], dtype-bool) 
p.logical or(a, b) 


a 
b 
n 


Out[68]: 


array([ True, True, True, False], dtype-bool) 


In [69]: 


np.logical and(a, b) 


Out[69]: 


array([ True, False, False, False], dtype-bool) 


EGER ER ZI 
In [71]: 
a - np.arange(5) 
np.sin(a) 
Out[7 1]: 
array([ ON. , ©.84147098, 0.90929743, ©.14112001, -0.756t 





In [72]: 


np.log(a) 


-c:1: RuntimeWarning: divide by zero encountered in log 


Out[72]: 


array([ -inf, OQ\. , 0.69314718, 1.09861229, 1.386: 





In [73]: 


np.exp(a) 


Out[73]: 


array([ 1\. F 2.71828183, 7.3890561 , 20.08553692, 5: 
«| m 








形状 不 匹配 
In [74]: 


a - np.arange(4) 
a * np.array([1, 2]) 


ValueError Traceback (most recent c: 
<ipython-input -74-82c1cid5b8c1> in <module>() 

1 a = np.arange(4) 

----> 2 a+ np.array([1, 2]) 


ValueError: operands could not be broadcast together with shapes (: 
[E E] 
广播 ?我们 将 在 稍 后 讨论 。 
变换 
In [76]: 





a = np.triu(np.ones((3, 3)), 1) # 看 一 下 help(np.triu) 
a 


Out[76]: 
array([[ ©., 1., 1.], 
[ 0., 0., 1.], 
[ 9., 0., 0.]]) 
In [77]: 
a.T 
Out[77]: 
array([[ ©., ©., 0.], 
[ 1., 0., 0.], 
[ 1., 1., 0.]]) 


Bo: 变换 是 视图 


因此 ， 下 列 的 代码 是 错误 的 ， 将 导致 矩阵 不 对 称 : 


In [78]: 
a += a.T 


注 : 线性 代数 


子 模块 numpy.linalg 实现 了 基础 的 线性 代数 ， 比 如 解 开 线 性 系统 ， 奇 异 值 分 解 
等 。 但 是 ， 并 不 能 保证 以 高 效 的 方式 编译 ， 因 此 ， 建 议 使 用 scipy.linalg ,详细 
的 内 容 见 线性 代数 操作 : scipy.linalg CEA). 


练习 : 其 他 操作 
e 看 一 下 np.allclose 的 帮助 ， 什 么 时 候 这 很 有 用 ? 
e 看 一 下 np.triu 和 np.tril 的 帮助 。 

1.3.2.2 基础 简化 


1.3.2.2.1 计算 求 和 
In [79]: 


x = np.array([1, 2, 3, 4]) 
np.sum(x) 


Out[79]: 
10 

In [80]: 
x.sum( ) 


Out[80]: 


10 


行 求 和 和 列 求 和 : 





In [81]: 


x = np.array([[1, 1], [2, 2]]) 
X 


Out[81]: 


array([[1, 1], 
[2, 2]]) 


In [83]: 
x.sum(axis-0) # 列 (第 一 纬度 ) 
Out[83]: 
array([3, 3]) 
In [84]: 
x[:，0].sum()，x[:，1].sum() 
Out[84]: 
(3, 3) 


In [85]: 


x.sum(axis=1) # 行 〈 第 二 纬度 ) 


Out[85]: 


array([2, 4]) 


In [86]: 
x[0, :].sum(), x[1, :].sum() 
Out[86]: 
(2, 4) 
相同 的 思路 在 高 维 : 
In [87]: 


x - np.random.rand(2, 2, 2) 
x.sum(axis-2)[0, 1] 


Out[87]: 
1.2671177193964822 
In [88]: 
x[0, 1, :].sum() 
Out[88]: 


1.2671177193964822 


1.3.2.2.2 其 他 简化 

e 以 相同 方式 运作 (也 可 以 使 用 axis- ) 
极 值 
In [89]: 


x - np.array([1, 3, 2]) 
x.min() 


Out[89]: 


1 


In [90]: 


x.max() 


Out[90]: 


3 


In [91]: 


x.argmin() # 最 小 值 的 索引 


Out[91]: 


0 


In [92]: 


x.argmax() # 最 大 值 的 索引 


Out[92]: 


1 


逻辑 运算 : 


In [93]: 


np.all([True, True, False]) 


Out[93]: 


False 


In [94]: 


np.any([True, True, False]) 


Out[94]: 


True 


注 : 可 以 被 应 用 数组 对 比 : 
In [95]: 


a = np.zeros((100, 100)) 
np.any(a !- 0) 


Out[95]: 


False 


In [96]: 


np.all(a -- a) 


Out[96]: 


True 


In [97]: 


np.array([1, 2, 3, 2]) 

.array([2, 2, 3, 2]) 
np.array([6, 4, 4, 5]) 

(a <= b) & (b <= c)).all() 


^— 009 
ou gg 
2 
"cO 


Out[97]: 


True 


统计 : 
In [98]: 
x - np.array([1, 2, 3, 1]) 


= np.array([[1, 2, 3], [5, 6, 1]]) 
.mean() 


x x< 
l 


Out[98]: 


1.75 


In [99]: 


np.median(x) 


Out[99]: 


abs 


In [100]: 


np.median(y, axis--1) # 最 后 的 坐标 办 


Out[100]: 


array([ 2., 5.]) 


In [101]: 


x.std() # 全 体 总 体 的 标准 差 。 


Out[101]: 


0.82915619758884995 


.… 以 及 其 他 更 多 ( 随 着 你 成 长 最 好 学 习 一 下 ) o 
练习 : 简化 


e REA sum ， 你 会 期 望 看 到 哪些 其 他 的 函数 ? 
e sum 和 cumsum 有 什么 区 别 ? 


实例 : 数据 统计 


populations.txt 中 的 数据 描述 了 过 去 20 年 加 拿 大 北部 野兔 和 狂 独 的 数量 〈 以 及 胡 募 
R) o 


你 可 以 在 编辑 器 或 在 IPython 看 一 下 数据 (shell 或 者 notebook 都 可 以 ) 
In [104]: 


cat data/populations.txt 


# year hare lynx carrot 
1900 30e3 4e3 48300 

1901 47.2e3 6.1e3 48200 
1902 70.263 9.8e3 41500 
1903 77.4e3 35.2e3 38200 
1904 36.3e3 59.4e3 40600 
1905 20.6e3 41.7e3 39800 
1906 18.163 19e3 38600 
1907 21.4e3 13e3 42300 
1908 22e3 8.363 44500 
1909 25.4e3 9.1e3 42100 
1910 27.1e3 7.4e3 46000 
1911 40.3e3 8e3 46800 
1912 57e3 12.3e3 43800 
1913 76.6e3 19.5e3 40900 
1914 52.363 45.7e3 39400 
1915 19.5e3 5T.1e3 39000 
1916 11.2e3 29.7e3 36700 
1917 7.6e3 15.8e3 41800 
1918 14. 6e3 9.7e3 43300 
1919 16.2e3 10.1e3 41300 
1920 24.7e3 8.6e3 47300 


首先 ， 将 数据 加 载 到 Numpy 数 组 : 
In [107]: 


data = np.loadtxt('data/populations.txt') 
year, hares, lynxes, carrots = data.T # 技巧 将 列 分 配给 变量 


接 下 来 作 图 : 
In [108]: 


from matplotlib import pyplot as plt 
plt.axes([0.2, 0.1, 0.5, 0.8]) 


plt.plot(year, hares, year, lynxes, year, carrots) 
plt.legend(('Hare', 'Lynx', 'Carrot'), loc-(1.05, 0.5)) 


Out[108]: 


«matplotlib.legend.Legend at 0x1070407d0> 








随时 间 变 化 的 人 口 平均 数 : 
In [109]: 


populations - data[:, 1:] 
populations.mean(axis-0) 


Out[109]: 


array([ 34080.95238095, 20166.66666667, 


样本 的 标准 差 : 
In [110]: 


populations.std(axis-0) 


Out[110]: 


array([ 20897.90645809, 16254.59153691, 


42400. 1) 


3322.50622558]) 


每 一 年 哪个 物种 有 最 高 的 人 口 ? : 
In [111]: 


np.argmax(populations, axis=1) 


Out[111]: 


array (2a 40, 001 0:502 01 022002 E222 D «DO E he 22 2 


«| = 











实例 : 随机 游 走 算法 扩散 
random walk 


让 我 们 考虑 一 下 简单 的 1 维 随机 游 走 过 程 : 在 每 个 时 间 点 ， 行 走 者 以 相等 的 可 能 性 
跳 到 左边 或 右边 。 我 们 感 兴 趣 的 是 找到 随机 游 走 者 在 t 次 左 跳 或 右 跳 后 距离 原点 
的 典型 距离 ? 我 们 将 模拟 许多 "行走 者 “来 找到 这 个 规律 ， 并 且 我 们 将 采用 数组 计算 
技巧 来 计算 : 我 们 将 创建 一 个 2D 数 组 记录 事实 ， 一 个 方向 是 经 历 ( 每 个 行走 者 有 一 
个 经 历 ) ， 一 个 纬度 是 时 间 : 








































































































shuffled jumps Position : cumulated jumps sum 
time time 
ilia | | il2]i|2]il]2] | 
-111|1-1-*-1/|1 -110/1/0-1/,0 
" | | B | 
= | © 
oll qd G i a 
be — TLLA be 
In [113]: 


n stories = 1000 £ 行走 者 的 数 
t max = 200 # 我 们 跟踪 行走 者 的 时 间 


我 们 随机 选择 步 长 1 或 -1 去 行走 : 

In [115]: 
t = np.arange(t max) 
steps = 2 * np.random.random_integers(0, 1, (n stories, t max)) - : 
np.unique(steps) # 验证 : 所 有 步 长 是 1 或 -1 

Ei ee: | 





Out[115]: 

array([-1, 1]) 
我 们 通过 汇总 随 着 时 间 的 步骤 来 构建 游 走 
In [116]: 


positions = np.cumsum(steps, axis=1) # axis = 1: 纬度 是 时 间 
sq distance = positions**2 

获得 经 历 轴 的 平均 数 : 

In [117]: 


mean sq distance - np.mean(sq distance, axis-0) 


画 出 结果 : 


In [126]: 


plt.figure(figsize=(4, 3)) 
plt.plot(t, np.sqrt(mean sq distance), 'g.', t, np.sqrt(t), 'y-') 
plt.xlabel(r"$t$") 
plt.ylabel(r"$\sqrt{\langle (Ndelta x)^2 \rangle}$") 
T mij 


Out[126]: 


«matplotlib.text.Text at 0x10b529450> 











我 们 找到 了 物理 学 上 一 个 著名 的 结果 : 均 方 差 记 录 是 时 间 的 平方 根 ! 


1.3.2.3 广播 


e numpy 数 组 的 基本 操作 〈 相 加 等 ) 是 元 素 级 别 的 
。 在 相同 大 小 的 数组 上 仍然 适用 。 尽管 如 此 , 也 可 能 在 不 同 大 小 的 数组 上 进行 这 
个 操作 ， 假 如 Numpy 可 以 将 这 些 数组 转化 为 相同 的 大 小 : 这 种 转化 称 为 广播 。 


下 图 给 出 了 一 个 广播 的 例子 : 
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让 我 们 验证 一 下 : 
In [127]: 


a = np.tile(np.arange(0, 40, 10), (3, 1)).T 
a 


Out[127]: 


array([[ 0, ©, 0], 
[10, 10, 10], 
[20, 20, 20], 
[30, 30, 30]]) 


In [128]: 


b = np.array([0, 1, 2]) 
a+b 


Out[128]: 


array([[ ©, 1, 2], 
[10, 11, 12], 
[20, 21, 22], 
[30, 31, 32]]) 


在 不 知道 广播 的 时 候 已 经 使 用 过 它 ! : 
In [129]: 


a - np.ones((4, 5)) 
a[0] = 2 # 我 们 将 一 个 数组 的 纬度 9 分 配给 另 一 个 数组 的 纬度 1 
a 


Out[129]: 


array([ 


HEEN 
HEEN 
HEEN 


~ ~ ~ ~ 


In [130]: 


a - np.ones((4, 5)) 

print a[0] 

a[0] = 2 # 我 们 将 一 个 数组 的 纬度 0 分 配给 另 一 个 数组 的 纬度 
a 


Out[130]: 


array([ 


[ 
[ 
[ 
[ 


HEEN 
HEEN 
HEEN 


~ ~ ~ ~ 


Zax 
dic 
alee 
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一 个 有 用 的 技巧 : 
In [133]: 


a = np.arange(0, 40, 10) 
a.shape 


Out[133]: 


(4,) 


In [134]: 


a = a[:, np.newaxis] # 添加 一 个 新 的 轴 -> 2D 数组 
a.shape 


Out[134]; 


(4, 1) 


In [135]: 


a 


Out[135]: 


array([[ 9], 
[10], 
[20], 
[30]]) 


In [136]: 


a+b 


Out[136]: 


array([[ ©, 1, 2], 
[10 . 11, 12], 
[20, 21, 22], 
[30, 31, 32]]) 


广播 看 起 来 很 神奇 ， 但 是 ， 当 我 们 要 解决 的 问题 是 输出 数据 比 输入 数据 有 更 多 纬度 
的 数组 时 ， 使 用 它 是 非常 自然 的 。 


实例 : 广播 
让 我 们 创建 一 个 66 号 公路 上 城市 之 间距 离 (用 公里 计算 ) 的 数组 : 芝加哥 、 斯 普 林 
菲尔德 、 圣 路 易 斯 、 塔 尔 萨 、 俄 克拉 何 马 市 、 阿 马里 洛 、 圣 塔 菲 、 阿 尔 布 开 克 、 
Flagstaff、 洛 杉 矶 。 
In [138]: 

mileposts = np.array([0, 198, 303, 736, 871, 1175, 1475, 1544, 191: 


distance array - np.abs(mileposts - mileposts[:, np.newaxis]) 
distance array 


S| 
Out[138]: 





array([[ 0, 198, 303, 736, 871, 1175, 1475, 1544, 1913, 2448: 
[ 198, 0, 105, 538, 673, 977, 1277, 1346, 1715, 2250: 
[ 303, 105, O0, 433, 568, 872, 1172, 1241, 1610, 2145 
[ 736, 538, 433, ©, 135, 439, 739, 808, 1177, 1712. 
[ 871, 673, 568, 135, 0, 304, 604, 673, 1042, 15777 
[1175, 977, 872, 439, 304, 0, 300, 369, 738, 1273. 
[1475, 1277, 1172, 739, 604, 300, 0, 69, 438, 9737 
[1544, 1346, 1241, 808, 673, 369, 69, 0, 369, 904 
[1913, 1715, 1610, 1177, 1042, 738, 438, 369, 0, 535 
[2448, 2250, 2145, 1712, 1577, 1273, 973, 904, 535, o` 








许多 基于 网 格 或 者 基于 网 络 的 问题 都 需要 使 用 广播 。 例 如 ， 如 果 要 计算 10X10 网 格 


中 每 个 点 到 原点 的 数据 ， 可 以 这 样 : 
In [139]: 


X, y = np.arange(5), np.arange(5)[:, np.newaxis] 
distance = np.sqrt(x ** 2 + y ** 2) 


distance 
Out[139]: 
array([[ ON. "EE O2. nu dV 
[NS , 1.41421356, 2.23606798, 3.16227766, 
[2X , 2.23606798, 2.82842712, 3.60555128, 
[ 3\. , 3.16227766, 3.60555128, 4.24264069, 
[ 4\. , 4.12310563, 4.47213595, 5\. 


， 4 
4.12: 
4.47: 
SN 
EUG! 





或 者 用 颜色 : 
In [141]: 


plt.pcolor(distance) 
plt.colorbar() 


Out[141]; 


«matplotlib.colorbar.Colorbar instance at 0x10d8d7170> 


5 " 
48 
4 
42 
36 
: 36 
25 
18 
1 12 
“0 1 2 3 4 5 


评论 : numpy.ogrid P254 iE E SIE E— T BUE rh gs T SS ES es RE 8] E XR : 
In [142]: 


X, y = np.ogrid[0:5, 0:5] 
X, d 
Out[142]: 
(array([[0], 
[1], 
[2], 
[3], 
[4]]), array([[0, 1, 2, 3, 4]])) 
In [143]: 


x.shape, y.shape 
Out[143]: 

((5, 1), (1, 5)) 
In [144]: 


distance = np.sqrt(x ** 2 + y ** 2) 


因此 ，  np.ogrid 就 非常 有 用 ， 只 要 我 们 是 要 义理 网 格 计算 。 另 一 方面 ， 在 一 些 
无 法 (或 者 不 想 ) 从 广播 中 收益 的 情况 下 ， np .mgrid 直接 提供 了 由 索引 构成 的 
和 矩阵 : 


In [145]: 


X, y = np.mgrid[0:4, 0:4] 
x 


Out[145]: 
array([[0, 0, 0, 0], 
TEDER TT 
[oer 22d 
[3, 3, 3, 3]]) 
In [146]: 
y 
Out[146]: 
array([[0, 1, 2, 3], 
, RUE 2; Sq 
[Ord 02 091. 
[0, 1, 2, 3]]) 


1.3.2.4 数 组 形状 操作 


1.3.2.4.1 局 平 


In [147]: 


a = np.array([[1, 2, 3], [4, 5, 6]]) 
a.ravel() 


Out[147]: 
array (ii 2,73 4 5 61 


In [148]: 


a.T 


Out[148]: 


array([[1, 4], 
[25 5 1 
[3, 6]]) 


In [149]: 
a.T.ravel() 
Out[149]: 


array([1, 4, 2, 5, 3, 6]) 


1.3.2.4.2 重 排 


局 平 的 相反 操作 : 
In [150]: 


a.shape 


Out[150]: 


(2, 3) 


In [152]: 


b 
b 
b 


a.ravel() 
b.reshape((2, 3)) 


Out[152]: 


array([[1, 2, 3], 
[4, 5, 6]]) 


或 者 : 


In [153]: 


a.reshape((2, -1)) # 不 确定 的 值 (-1) 将 被 推导 


Out[153]: 


array([[1, 2, 3], 
[4, 5, 6]]) 


可 以 可 以 返回 副本 
In [155]: 


b[0, 0] = 99 
a 


Out[155]: 


array([[99, 2, 3], 
4, 5, 6]]) 


当心 : 重 排 也 可 以 返回 一 个 副本 1 : 
In [156]: 
np.zeros((3, 2)) 


- a.T.reshape(3*2) 
[0] = 9 


voog 


Out[156]: 


要 理解 这 个 现象 ， 你 需要 了 解 更 多 关于 numpy 数 组 内 存 设计 的 知识 。 


1.3.2.4.3 添加 纬度 


警告 : ndarray.reshape 可 以 返回 一 个 视图 (参见 help(np.reshape) ) ,也 


FH np.newaxis 对 象 进行 索引 可 以 为 一 个 数组 添加 轴 (在 上 面 关 于 广播 的 部 分 你 
已 经 看 到 过 了 ) 
In [157]: 


z - np.array([1, 2, 3]) 
Z 


Out[157]: 

array([1, 2, 3]) 
In [158]: 

z[:, np.newaxis] 
Out[158]: 


array([[1], 
[2] 


[3]]) 
In [159]: 
z[np.newaxis, :] 
Out[159]: 
array([[1, 2, 3]]) 
1.3.2.4.4 纬度 重组 
In [160]: 


a - np.arange(4*3*2).reshape(4, 3, 2) 
a.shape 


Out[160]: 


(4, 8, 2) 


In [161]: 


apo 2, 1] 


Out[161]: 


5 


In [163]: 


b = a.transpose(1, 2, 0) 
b.shape 


Out[163]: 


(3, 2, 4) 


In [164]: 

b[2，1，0] 
Out[164]: 

5 
也 是 创建 了 一 个 视图 : 
In [165]: 


ole i Ol SS 
a[0, 2, 1] 


Out[165]: 


di 


1.3.2.4.5 改变 大 小 
可 以 用 ndarray.resize 改变 数组 的 大 小 : 
In [167]: 


a - np.arange(4) 
a.resize((8,)) 
a 


Out[167]: 


array([0, 1, 2, 3, ©, ©, ©, 91) 


但 是 ， 它 不 能 在 其 他 地 方 引用 : 
In [168]: 


b-a 
a.resize((4,)) 


ValueError Traceback (most recent c: 
«ipython-input-168-59edd3107605» in <module>() 
1b-a 


----» 2 a.resize((4,)) 


ValueError: cannot resize an array that references or is reference« 
by another array in this way. Use the resize function 





练习 : 形状 操作 


e 看 一 下 reshape 的 文档 字符 串 ， 特 别 要 注意 其 中 关于 副本 和 视图 的 内 容 。 

e 用 flatten 来 替换 ravel 。 有 什么 区 别 ? (fem: 试 一 下 哪个 返回 视图 哪 
个 返回 副本 ) 

。 试 一 下 用 transpose 来 进行 纬度 变换 。 


1.3.2.5 数据 排序 


按 一 个 轴 排 序 : 
In [169]: 


a - np.array([[4, 3, 5], [1, 2, 1]]) 
b = np.sort(a, axis-1) 
b 

Out[169]: 


array([[3, 4, 5], 
EE 15211) 
注 : 每 行 分 别 排序 ! 
原 地 排序 : 
In [170]: 


a.sort(axis-1) 
a 


Out[170]: 


array([[3, 4, 5], 
[1, 1, 2]]) 


象征 索引 排序 : 
In [171]: 
Q 
j 
j 


np.array([4, 3, 1, 2]) 
np.argsort(a) 


Out[171]: 
array([2, 3, 1, 0]) 
In [172]: 
a[j] 


Out[172]: 


array([1, 2, 3, 4]) 


找到 最 大 值 和 最 小 值 : 
In [173]: 


a - np.array([4, 3, 1, 2]) 
j max np.argmax(a) 

j_min np.argmin(a) 
j_max, j_min 


Out[173]: 


(0, 2) 


练习 : 排序 


e 试 一 下 原 地 和 非 原 地 排序 

e 试 一 下 用 不 同 的 数据 类 型 创建 数组 并 且 排 序 。 

e 用 all 或 者 array_equal 来 检查 一 下 结果 。 

e 看 一 下 np.random.shuffle ， 一 种 更 快 创建 可 排序 输入 的 方式 。 
e 合并 ravel 、 sort 和 reshape 。 


看 一 下 sort 的 axis 关键 字 ， 重 写 一 下 这 个 练习 。 


1.3.2.6 总 结 


入 门 你 需要 了 解 什么 ? 


e 了 解 如 何 创建 数组 : array, arange, ones, zeros o 
e 了 解 用 array.shape 数组 的 形状 ， 然 后 使 用 切片 来 获得 数组 的 不 同 视 
图 : array[::2] 等 。 用 reshape 改变 数组 形状 或 者 用 ravel Fik. 
e 获得 数组 元 素 的 一 个 子 集 ， 和 /或 用 面具 修改 他 们 的 值 ay and/or modify their 
values with masks 


In [174]: 


a[a < 0] =0 


e 了 解数 组 上 各 式 各 样 的 操作 ， 上 比如 找到 平均 数 或 最 大 值 
( array.max() 、 array.mean() )。 不 需要 记 住 所 有 东西 ， 但 是 应 该 有 条 件 
反射 去 搜索 文档 ( 线 上 文档 ，help() , lookfor() )!! 

e 更 高 级 的 用 法 : 掌握 用 整 型 数组 索引， 以 及 广播 。 了 解 更 多 的 Numpy 函 数 以 便 
处 理 多 种 数组 操作 。 


TR se De] ase 


如 果 你 想 要 快速 通过 科学 讲座 笔记 来 学 习 生 态 系统 ， 你 可 以 直接 跳 到 下 一 章 : 
Matplotlib: /F Ej (35 X). 


本 章 剩 下 的 内 容 对 于 学 习 介 绍 部 分 不 是 必须 的 。 但 是 ， 记 得 回来 完成 本 章 并 且 完 成 
更 多 的 练习 。 


1.3.3 数据 的 更 多 内 容 
1.3.3.1 更 多 的 数据 类 型 
1.3.3.1.1 投射 


“更 大 ”的 类 型 在 混合 类 型 操作 中 胜出 : 
In [175]: 


np.array([1, 2, 3]) + 1.5 
Out[175]: 

array (I 2295, 3235353 rb 
赋值 不 会 改变 类 型 ! 
In [176]: 


a - np.array([1, 2, 3]) 
a.dtype 


Out[176]: 
dtype('int64') 
In [178]: 


a[0] = 1.9 # <-- 浮 点 被 截取 为 整数 
Q 


Out[178]: 


array([1, 2, 3]) 


强制 投射 : 

In [179]: 
a - np.array([1.7, 1.2, 1.6]) 
b = a.astype(int) # «-- 截取 整数 
b 


Out[179]: 


array([1, 1, 1]) 


四 舍 五 入 : 

In [180]: 
ac np-array (i12; 17501765 215; 315, 4151) 
b = np.around(a) 
b # 仍然 是 浮 点 


Out[180]: 
Altay ope omo eo ao UL main) 
In [181]: 


c - np.around(a).astype(int) 
C 


Out[181]: 


array([1, 2, 2, 2, 4, 4]) 


1.3.3.1.2 不 同 数据 类 型 的 大 小 
整数 (FAS): 


int8 8 bits 


int16 16 bits 
int32 32 bits (与 32 位 平台 的 int 相 同 ) 
int64 64 bits (与 64 位 平台 的 int 相 同 ) 
In [182]: 


np.array([1], dtype=int).dtype 


Out[182]: 


dtype('int64') 


In [183]: 


np.iinfo(np.int32).max, 2**31 - 1 


Out[183]: 


(2147483647, 2147483647) 


In [184]: 


np.iinfo(np.int64).max, 2**63 - 1 


Out[184]; 


(9223372036854775807, 9223372036854775807L) 


无 符号 整数 : 


uint8 8 bits 

uint16 16 bits 

uint32 32 bits 

uint64 64 bits 
In [185]: 


np.iinfo(np.uint32).max, 2**32 - 1 


Out[185]: 


(4294967295, 4294967295) 


In [186]: 


np.iinfo(np.uint64).max, 2**64 - 1 


Out[186]: 


(18446744073709551615L, 18446744073709551615L) 


浮 点 数据 : 
类 型 字 节 数 

float16 16 bits 

float32 32 bits 

float64 64 bits (与 浮 点 相同 ) 

float96 96 bits, 平台 依赖 (与 np.longdouble 相同 ) 

float128 128 bits, 平台 依赖 (与 np.longdouble 相同 ) 
In [187]: 


np.finfo(np.float32).eps 


Out[187]: 


1.1920929e-07 


In [188]: 


np.finfo(np.float64).eps 


Out[188]: 


2.2204460492503131e-16 


In [189]: 


np.float32(1e-8) + np.float32(1) -- 1 


Out[189]: 


True 


In [190]: 


np.float64(1e-8) + np.float64(1) == 1 


Out[190]: 
False 
浮 点 复数 : 
类 型 字 节 数 
complex64 两 个 32-bit 浮 点 
complex128 两 个 64-bit 浮 点 
complex192 两 个 96-bit ZR, 平台 依赖 
complex256 两 个 128-bit 浮 点 , 平台 依赖 
更 小 的 数据 类 型 


如 果 你 不 知道 需要 特殊 数据 类 型 ， 那 你 可 能 就 不 需要 。 


比较 使 用 float32 代替 float64 : 


e. 一 半 的 内 存 和 硬盘 大 小 
e 需要 一 半 的 宽带 (可 能 在 一 些 操 作 中 更 快 ) 
In [191]: 


a = np.zeros((1e6,), dtype=np.float64) 
b = np.zeros((1e6,), dtype=np. float32) 
%timeit a*a 


1000 loops, best of 3: 1.41 ms per loop 


In [192]: 


%timeit b*b 


1000 loops, best of 3: 739 us per loop 


e 但 是 更 大 的 四 舍 五 入 误差 - 有 时 在 一 些 令 人 惊喜 的 地 方 〈 即 ， 不 要 使 用 它们 除 
非 你 真 的 需要 ) 


1.3.3.2 结构 化 的 数据 类 型 


名 称 类 型 
sensor code (4 个 字母 的 字符 ) 
position CZ) 
value ( 浮 点 ) 


In [194]: 


samples = np.zeros((6,), dtype=[('sensor_code', 'S4'),('position', 
samples.ndim 


El = 2 
Out[194]: 





In [195]: 


samples.shape 


Out[195]: 
(6,) 


In [196]: 


samples.dtype.names 


Out[196]: 


('sensor code', 'position', 'value') 


In [198]: 


samples[:] = [('ALFA', 1, 0.37), ('BETA', 1, 0.11), ('TAU', 1, 
('TAU', 1.2, 0.13)] 
samples 


pe —Á——Ó 
Out[198]: 





array([('ALFA', 1.0, 0.37), ('BETA', 1.0, 0.11), ('TAU', 1.0, 0.13: 
('ALFA', 1.5, 0.37), ('ALFA', 3.0, 0.11), ('TAU', 1.2, 0.13 
dtype=[('sensor_code', 'S4'), ('position', '<f8'), ('value', 





BES 
用 字段 名 称 素 引 也 可 以 访问 字段 : 
In [199]: 


samples['sensor_code' ] 
Out[199]: 


array(['ALFA', 'BETA', 'TAU', 'ALFA', 'ALFA', 'TAU'], 
dtype='|S4') 


In [200]: 


samples['value'] 


Out[200]: 


array([ 0.37, 0.11, 0.13, 0.37, 0.11, 0.13]) 


In [201]: 


samples[0] 


Out[201]: 


('ALFA', 1.0, 0.37) 


In [202]: 


samples[0]['sensor_code'] = 'TAU' 
samples[0] 


Out[202]: 

('TAU', 1.0, 0.37) 
一 次 多 个 字段 : 
In [203]: 


samples[['position', 'value']] 


Out[203]: 


array([(1.0, 0.37), (1.0, 0.11), (1.0, 0.13), (1.5, 0.37), (3.0, 0 
(192 0513)]7 
dtype-[('position', '«f8'), ('value', '«f8')]) 


«| D — #4 
和 普通 情况 一 样 ， 象 征 索 引 也 有 效 : 








In [204]: 


samples[samples['sensor code'] == 'ALFA'] 


Out[204]: 


array([( AEFA', 1.5, 0.37), ('ALFA', 3.0, ©.11)], 
dtype-[('sensor code', 'S4'), ('position', '«f8'), ('value', 


«| = — ES 
注 : 构建 结构 化 数组 有 需要 其 他 的 语言 ， 见 这 里 和 这 里 。 








1.3.3.3 面具 数组 (maskedarray) : 义理 缺失 值 (的 传播 ) 
e 对 于 浮 点 不 能 用 NaN， 但 是 面具 对 所 有 类 型 都 适用 : 
In [207]: 


x = np.ma.array([1, 2, 3, 4], mask=[0, 1, 0, 1]) 
X 


Out[207]: 
masked array(data - [1 -- 3 --], 
mask - [False True False True], 
fill value - 999999) 
In [208]: 
y = np.ma.array([1, 2, 3, 4], mask=[0, 1, 1, 1]) 
x+y 


Out[208]: 
masked_array(data = [2 -- -- --], 
mask = [False True True True], 
fill value = 999999) 


e 通用 函数 的 面具 版 本 : 
In [209]: 


np.ma.sqrt([1, -1, 2, -2]) 


Out[209]: 


[1.0 -- 1.4142135623730951 --], 
[False True False True], 
1e-20) 


masked array(data 
mask 
fill value 


注 : 有 许多 其 他 数组 的 兄弟 姐妹 


尽管 这 脱离 了 Numpy 这 章 的 主题 ， 让 我 们 花 点 时 间 回 忆 一 下 编写 代码 的 最 佳 实 践 ， 
从 长 远 角 度 这 绝对 是 值得 的 : 
最 佳 实践 


e 明确 的 变量 名 (不 需要 备注 去 解释 变量 里 是 什么 ) 
e 风格 : 逗号 后 及 = 周围 有 空格 等 。 


在 Python 代码 风格 指南 及 文档 字符 串 惯 例 页 面 中 给 出 了 相当 数据 量 如何 书 
写 "* 漂 亮 代 码 ” 的 规则 〈 并 且 ， 最 重要 的 是 ， 与 其 他 人 使 用 相同 的 惯例 /) 。 


e 除非 在 一 些 及 特殊 的 情况 下 ， 变 量 名 及 各 注 用 英文 。 
1.3.4 高 级 操作 


1.3.4.1. 多 项 式 
Numpy 也 包含 不 同 基 的 多 项 式 : 
例如 ，$3x^2 + 2x - 1$: 

In [211]: 


p = np.polyid([3, 2, -1]) 
p(0) 


Out[211]: 
-1 


In [212]: 


p.roots 


Out[212]: 


array([-1\. 7 0.33333333]) 
In [213]: 
p.order 
Out[213]: 
2 
In [215]: 
X - np.linspace(0, 1, 20) 
y = np.cos(x) + 0.3*np.random.rand(20) 
p = np.polyid(np.polyfit(x, y, 3)) 
t - np.linspace(0, 1, 200) 
plt.plot(x, y; 'o', t, p(t), i) 
Out[215]: 


[xmatplotlib.lines.Line2D at 0x10f40c2d0>, 
«matplotlib.lines.Line2D at 0x10f40c510>] 








更 多 内 容 见 
http://docs.scipy.org/doc/numpy/reference/routines.polynomials.poly1d.html. 


1.3.4.1.1 更 多 多 项 式 (有 更 多 的 基 ) 


Numpy 也 有 更 复杂 的 多 项 式 接 口 ， 支 持 比 如 切 比 雪夫 基 。 
(3x^2 + 2x - 1): 
In [216]: 


p = np.polynomial.Polynomial([-1, 2, 3]) # 系数 的 顺序 不 同 ! 
p(8) 


Out[216]: 


-1.0 


In [217]: 


p.roots() 


Out[217]: 


array([-1\. , 0.33333333]) 


In [218]: 


p.degree() # 在 普通 的 多 项 式 中 通常 不 暴露 ' order' 


Out[218]: 


2 


在 切 尔 雪 夫 基 中 使 用 多 项 式 的 例子 ， 多 项 式 的 范围 在 [-1,1] : 
In [221]: 


np.linspace(-1, 1, 2000) 

np.cos(x) + 0.3*np.random.rand(2000) 
np.polynomial.Chebyshev.fit(x, y, 90) 
np.linspace(-1, 1, 200) 

plt.plot(x, y, 'r.') 

plt.plot(t, p(t), 'k-', lw-3) 


Out[221]: 


[<matplotlib.lines.Line2D at 0x10f442d10>] 





1.3.4.2 DIR HBC 
1.3.4.2.1 文本 文件 


例子 : populations.txt: 


# year hare lynx carrot 
1900 30e3 4e3 48300 
1901 47.203 6.1e3 48200 
1902 70.2e3 9.8e3 41500 
1903 77.4e3 35.2e3 38200 


In [222]: 


data = np.loadtxt('data/populations.txt') 
data 


Out[222]: 


array([[ 1900., 30000., 4000., 48300.], 
[ 1901., 47200., 6100., 48200.], 
[ 1902., 70200., 9800., 41500.], 
[ 1903., 77400., 35200., 38200.], 
[ 1904., 36300., 59400., 40600.], 
[ 1905., 20600., 41700., 39800.], 
[ 1906., 18100., 19000., 38600.], 
[ 1907., 21400., 13000., 42300.], 
[ 1908., 22000., 8300., 44500.], 
[ 1909., 25400., 9100., 42100.], 
[ 1910., 27100., 7400., 46000.], 
[ 1911., 40300., 8000., 46800.], 
[ 1912., 57000., 12300., 43800.], 
[ 1913., 76600., 19500., 40900.], 
[ 1914., 52300., 45700., 39400.], 
[ 1915., 19500., 51100., 39000.], 
[ 1916., 11200., 29700., 36700.], 
[ 1917., 7600., 15800., 41800.], 
[ 1918., 14600., 9700., 43300.], 
[ 1919., 16200., 10100., 41300.], 
[ 1920., 24700., 8600., 47300.]]) 


In [224]: 


np.savetxt('pop2.txt', data) 
data2 - np.loadtxt('pop2.txt') 


X : 如 果 你 有 一 个 复 末 的 文本 文件 ， 应 该 尝试 : 


e np.genfromtxt 


e 使 用 Python 的 /OO 函数 和 例如 正则 式 来 解析 (Python 特别 适合 这 个 工作 ) 
提示 : 用 IPython 在 文件 系统 中 航行 
In [225]: 


pwd # 显示 当前 目录 
Out[225]: 
u'/Users/cloga/Documents/scipy-lecture-notes cn' 


In [227]: 


cd data 


/Users/cloga/Documents/scipy-lecture-notes cn/data 


In [228]: 


ls 


populations.txt 


1.3.4.2.2 图 像 


使 用 Matplotlib : 
In [233]: 


img = plt.imread('data/elephant.png' ) 
img.shape, img.dtype 


Out[233]: 
((200, 300, 3), dtype('float32')) 
In [234]: 
plt.imshow(img) 


Out[234]: 


<matplotlib.image.AxesImage at 0x10fd13f10> 
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In [237]: 


plt.savefig('plot.png') 
plt.imsave('red elephant', img[:,:,0], cmap-plt.cm.gray) 


«matplotlib.figure.Figure at 0x10fba1750> 


这 只 保存 了 一 个 渠道 (RGB) 
In [238]: 


plt.imshow(plt.imread('red elephant.png')) 


Out[238]: 


«matplotlib.image.AxesImage at 0x11040e150> 
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1.3 NumPy : 创建 和 操作 数值 数据 123 


C AID artiira Notae rH vr Hg 
SCIPy Lecture Notes Fh x his 


In [239]: 


from scipy.misc import imsave 
imsave('tiny elephant.png', img[::6,::6]) 
plt.imshow(plt.imread('tiny elephant.png'), interpolation-'nearest 


[i CR See 'éEAc II Os 





Out[239]: 


«matplotlib.image.AxesImage at 0x110bfbfd0> 





1.3.4.2.3 Numpy 的 自 有 格式 
Numpy 有 自 有 的 二 进 制 格式 ， 没 有 便携 性 但 是 |/O 高 交 
In [240]: 

data - np.ones((3, 3)) 


np.save('pop.npy', data) 
data3 = np.load('pop.npy') 


1.3.4.2.4 知名 的 (并且 更 复杂 的 ) 文件 格式 


HDF5: h5py, PyTables 

NetCDF: scipy.io.netcdf file , netcdf4-python, ... 
Matlab: scipy.io.loadmat , scipy.io.savemat 
MatrixMarket: scipy.io.mmread , scipy.io.mmread 


… 如 果 有 人 使 用 ， 那 么 就 可 能 有 一 个 对 应 的 Python 库 。 
练习 : 文本 数据 文件 





写 一 个 Python 脚本 从 populations.txt 加 载 数据 ， 删 除 前 五 行 和 后 五 行 。 将 这 个 小 数 
据 集 存 人 pop2.txt o 


Numpy 内 部 
如 果 你 对 Numpy 的 内 部 感 兴趣 , 有 一 个 关于 Advanced Numpy 的 很 好 的 讨论 。 
1.3.5 一 些 练习 


1.3.5.1 数组 操作 
。 从 2D 数 组 (不 需要 显示 的 输入 ) : 


[[1, 6, 11], 
[2, 7, 12], 
[3, 8, 13], 
[4, 9, 14], 
[5, 10, 15]] 


并 且 生 成 一 个 第 二 和 第 四 行 的 新 数组 。 
e 将 数组 a 的 每 一 列 以 元 素 的 方式 除 以 数组 b (提示 : np.newaxis ): 
In [243]: 


np.arange(25).reshape(5, 5) 
np.array([1., 5, 10, 15, 20]) 


a 
b 


e 难 一 点 的 题目 : 创建 10 X 3 的 随机 数 数组 〈 在 [0, 1] 的 范围 内 ) 。 对 于 每 一 行 ， 
挑 出 最 接近 0.5 的 数 。 
o 用 abs 和 argsort 找到 每 一 行 中 最 接近 的 列 j 。 
o 使 用 象征 索引 抽取 数字 。 (提示 : alij]- 数 组 i 必须 包含 j 中 成 分 的 
对 应 行 数 ) 


1.3.5.2 图 片 操作 : 给 Lena 加 边框 


让 我 们 从 著名 的 Lena 图 (http://www.cs.cmu.edu/~chuck/lennapg/) 上 开始 ， 用 
Numpy 数 组 做 一 些 操 作 。Scipy 在 ”scipy .lena 画 数 中 提供 了 这 个 图 的 二 维 数组 : 


In [244]: 


from scipy import misc 
lena - misc.lena() 


x : 在 旧版 的 scipy 中 ， 你 会 在 scipy.lena() 找到 lena。 


这 是 一 些 通过 我 们 的 操作 可 以 获得 图 片 : 使 用 不 同 的 颜色 地 图 ， 裁 前 图 片 ， 改 变 图 
片 的 一 部 分 。 





e 让 我 们 用 pylab 的 imshow HA ERZAR. 
In [245]: 


import pylab as plt 
lena - misc.lena() 
plt.imshow(lena) 


Out[245]; 


<matplotlib.image.AxesImage at 0x110f51ad0> 





e Lena 然 后 以 为 色彩 显示 。 要 将 她 展示 为 灰色 需要 指定 一 个 颜色 地 图 。 
In [246]: 


plt.imshow(lena, cmap-plt.cm.gray) 


Out[246]: 


<matplotlib.image.AxesImage at 0x110fb15d0> 
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e 用 一 个 更 小 的 图 片 中 心 来 创建 数组 : 例如 ， 从 图 像 边 缘 删 除 30 像 素 。 要 检查 结 
R, H imshow 显示 这 个 新 数组 。 


In [247]: 


crop. lena = lena[30:-30,30:-30] 


e 现在 我 们 为 Lena 的 脸 加 一 个 黑色 项 链 形 边框 。 要 做 到 这 一 点 ， 需 要 创建 一 个 面 
具 对 应 于 需要 变 成 黑色 的 像素 。 这 个 面具 由 如 下 条 件 定义 
(y-256)**2 + (x-256)**2 


In [248]: 


y, X = np.ogrid[0:512,0:512] # x 和 y 像素 索引 
y.shape, x.shape 


Out[248]: 


((512, 1), (1, 512)) 


In [249]: 


centerx, centery = (256, 256) # 图 像 中 心 
mask = ((y - centery)**2 + (x - centerx)**2) > 230**2 # mE 


接 下 来 我 们 为 面具 对 应 的 图 片 像 素 赋值 为 0。 语 句 非常 简单 并 且 直 觉 化 : 
In [253]: 


lena[mask] = 0 
plt.imshow(lena) 


Out[253]: 


<matplotlib.image.AxesImage at 0x113d33fd0> 


400 





100 200 300 400 500 
e 接 下 来 : 将 这 个 练习 的 所 有 命令 复制 到 lena locket.py 脚本 中 ， 并 且 在 
IPython 中 用 %run lena locket.py 执行 这 个 脚本 ， 将 圆 形 改 为 椭圆 。 


1.3.5.3 数据 统计 
populations.txt 中 的 数据 描述 了 野兔 和 狂 独 (以 及 胡 罗 比 ) 在 加 拿 大 北部 过 去 十 年 


的 数量 : 


In [254]: 
data - np.loadtxt('data/populations.txt') 
year, hares, lynxes, carrots = data.T # 技巧 列 到 变量 
plt.-axes([0-2, 0-1, 0-5, 0.8]) 


plt.plot(year, hares, year, lynxes, year, carrots) 
plt.legend(('Hare', 'Lynx', 'Carrot'), loc=(1.05, 0.5)) 


Out[254]: 


«matplotlib.legend.Legend at 0x1135d9510-» 





根据 populations.txt 中 的 数据 计算 并 打印 .… 


1. 每 个 物种 在 这 个 时 间 段 内 的 数量 平均 数 及 标准 差 。 

2. 每 个 物种 在 哪 一 年 数量 最 多 。 

3. 每 一 年 哪个 物种 数量 最 多 。 ( 提 
示 : np.array(['H', 'L', 'C']) 的 argsort 和 象征 索引 ) 

4. 哪 一 年 数量 超过 50000。 (提示 : 比较 和 np.any ) 

5. 每 个 物种 有 最 少数 量 的 两 年 。 (提示 : argsort 、 象 征 索 引 ) 

6. 比较 (ER) 野 免 和 狂 独 总 量 的 变化 (看 一 下 help(np.gradient) ) 。 看 
一 下 相关 ( 见 help(np.corrcoef) ) 。 


... 所 有 都 不 应 该 使 用 for 循 环 。 
答案 : Python 源 文件 


1.3.5.4 粗略 积分 估计 


B—THR f(a, b, c) 返回 $a^b - c$。 组 成 一 个 24x12x6 数 组 其 中 包含 它 值 在 
参数 范围 [0,1] x [0,1] x [0,1]. 


接近 的 3-D 积 分 


ff fe c)da db dc 
0 


在 这 个 体积 之 上 有 相同 的 平均 数 。 准 确 的 结果 是 
- 你 的 相对 误差 是 多 少 ? 


(技巧 : 使 用 元 素 级 别 的 操作 和 广播 。 你 可 以 用 np.ogrid 获得 在 
np.ogrid[0:1:20j] 范围 内 的 数据 点 。 ) 


提醒 Python 郴 数 : 
In [255]: 


In2 — į ~ 0.1931... 


det f(a, b, c): 
return some_result 


答案 : Python 源 文 件 


1.3.5.5 Mandelbrot 集 合 





写 一 个 脚本 计算 Mandelbrot 分 形 。Mandelbrot 和 迭代 


N_max = 50 

some threshold = 50 

c = x + 1j*y 

for j in xrange(N_max): 
A S 2 poc 


点 (x, y) 属于 Mandelbrot 集 合 ， 如 果 |c| < some threshold. 
作 如 下 计算 : 


构建 一 个 网 格 c=x+1j*y， 值 在 范围 [-2, 1] x [-1.5, 1.5] 
进行 迭代 

构建 2-D 布 尔 面 具 标 识 输 入 集合 中 的 点 

用 下 列 方法 将 结果 保存 到 图 片 : 


import matplotlib.pyplot as plt 
plt.imshow(mask.T, extent-[-2, 1, -1.5, 1.5]) 


plt.gray() 
plt.savefig('mandelbrot.png') 


答案 : Python 源 文件 


1.3.5.6 马尔 科 夫 链 





2, Pj=1 
J 


马尔 可 夫 链 过 渡 和 矩阵 P 以 及 在 状态 p 的 概率 分 布 : 


1. 0 &lt;- P[i,j] &lt;= 1 :从 状态 i 变 化 到 j 的 概率 

2. 过 度 规则 : $p{new} = P^T p(old)$ 

3. all(sum(P, axis=1) == 1) , p.sum() == 1 : 正 态 化 
写 一 个 脚本 产生 五 种 状态 ， 并 且 : 


e 构建 一 个 随机 矩阵 ， 正 态 化 每 一 行 ， 以 便 它 是 过 度 和 矩阵 。 
e 从 一 个 随机 ( 正 态 化 ) 概率 分 布 p 开始 ， 并 且 进 行 50 步 => p 50 
e 计算 稳定 分 布 : PT 的 特征 值 为 1 的 特征 向 量 (在 数字 上 最 接近 1) => 
p stationary 
记 住 正 态 化 向 量 - 333028... 
e 检查 一 下 p50 和 p stationary 是 否 等 于 公差 1e-5 
工具 箱 : np.random.rand 、 .dot() 、 np.linalg.eig、 


reductions, abs() 、 argmin、 
comparisons, all, np.linalg.norm 等 。 


答案 : Python 源 文 件 


1.4 Matplotlib : 22 #4 


1.4.1 简介 


Matplotlib 可 能 是 Python 惟一 一 个 最 广泛 使 用 的 二 维 图 包 。 它 同时 提供 了 从 Python 
中 可 视 化 数据 非常 的 快速 方式 以 及 多 种 格式 的 出 版 质量 图 片 。 我 们 将 在 交互 模式 下 
研究 Matplotlib， 包 含 大 多 数 的 常用 案例 。 


1.4.1.1 IPython 和 pylab 模 式 


IPython 是 强化 版 交互 Python shell， 有 许多 有 趣 的 功能 ， 包 括 : 输入 输出 的 命名 、 
访问 shell 命 令 改 进 错 误 排 除 等 。 它 位 于 Python 中 的 科学 计算 工作 流 的 核心 ， 要 让 它 
与 Matplotlib 的 结合 使 用 : 

用 命令 行 参数 -pylab ( --pylab 从 IPython0.12 开 始 ) 启动 IPython， 获 得 带 有 
Matlab/Mathematica 类 似 功 能 的 交互 Matplotlib session. 


1.4.1.2 pylab 


pylab 提 供 了 matplotlib 面 向 对 象 的 绘图 库 的 程序 接口 。 它 的 模型 与 Matlab™ 非 常 相 
近 。 因 此 ，pylab 中 的 绝 大 多 数 绘图 命 全 Matlab™ 都 有 带 有 相似 画 数 的 类 似 实现 。 重 
要 的 命令 会 以 交互 例子 来 解释 。 


1.4.2 简单 绘图 

在 这 个 部 分 ， 我 们 将 在 同一 个 图 像 中 绘制 cosine 和 sine 函 数 。 从 默认 设置 开始 ， 我 
们 将 不 断 丰 富 图 片 ， 让 它 看 起 来 更 漂亮 。 

第 一 步 获得 sine 和 cosine 辑 数 的 数据 : 

In [2]: 


import numpy as np 
X - np.linspace(-np.pi, np.pi, 256, endpoint-True) 
C, S = np.cos(X), np.sin(X) 


X 现在 是 Numpy 数 组 ， 范 围 是 -n 到 «m 之 间 (AS) 的 256 个 值 。C 是 
cosine (256 个 值 ) ， 而 S 是 sine (256 个 值 ) 


要 运行 例子 ， 你 可 以 在 IPython 的 交互 session 中 输入 这 些 命令 : 


ipython --pylab 


会 将 我 们 带 到 IPython 提 示 符 : 


POA 2.3.1 -- An enhanced Interactive Python. 

-> Introduction and overview of IPython's features. 
TES -» Quick reference. 
help -» Python's own help system. 
object? -» Details about 'object', use 'object??' for extra deta: 
Using matplotlib backend: MacOSX 


TE 





你 可 以 下 载 每 个 示例 ， 然 后 用 平常 的 Python 运行 ， 但 是 ， 你 将 没 法 动态 的 数据 操 
fF : 


python exercice 1.py 


过 点 击 对 应 的 图 片 ， 你 可 以 获得 每 一 步 的 源码 。 


1.4.2.1 用 默认 设置 绘图 
提示 : 文档 


@ plot 教 程 
e plot() 命 兮 


Matplotlib 有 一 组 默认 设置 ， 人 允许 自 定义 所 有 的 属性 。 你 几乎 可 以 控制 在 matplotlib 
中 的 所 有 属性 : 图 片 大 小 和 dpi、 线 长 度 、 颜 色 和 样式 、 坐 标 轴 、 坐 标 轴 和 网 格 属 
性 、 文 本 和 字体 属性 等 等 。 


import pylab as pl 
import numpy as np 


X - np.linspace(-np.pi, np.pi, 256, endpoint-True) 
C, S = np.cos(X), np.sin(X) 


pl.plot(X, C) 
pl.plot(X, S) 


pl.show() 


0.5 
0.0 
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1.4.2.2 默认 值 示 例 
提示 : 文档 
e 自 定义 matplotlib 
在 下 面 的 脚本 中 ， 我 们 标示 (AXE) 了 影响 绘图 外 观 的 所 有 图 片 设置 。 


这 些 设置 被 显 式 的 设置 为 默认 值 ， 但 是 现在 你 可 以 交互 的 实验 这 些 值 以 便 验 证 他 们 
的 效果 (看 一 下 下 面 的 线 属性 和 线 样 式 )。 


import pylab as pl 
import numpy as np 


# 创建 一 个 大 小 为 8X6 英寸 ， 每 英寸 80 个 点 的 图 片 
pl.figure(figsize-(8, 6), dpi-80) 


# 从 1X1 的 网 格 创 建 一 个 子 图 片 
pl.subplot(1, 1, 1) 


X - np.linspace(-np.pi, np.pi, 256, endpoint-True) 
C, S = np.cos(X), np.sin(X) 


# 用 宽度 为 1 URR) 的 蓝 色 连续 直线 绘制 cosine 
pl.plot(X, C, color="blue", linewidth-1.0, linestyle="-") 


# 用 宽度 为 1 (GR) 的 绿色 连续 直线 绘制 sine 
pl.plot(X, S, color="green", linewidth-1.0, linestyle="-") 


# 设置 X 轴 的 极 值 
pl.xlim(-4.0, 4.0) 


# 设置 x 轴 的 刻度 值 
pl.xticks(np.linspace(-4, 4, 9, endpoint-True)) 


# 设置 y 轴 的 极 值 
pl.ylim(-1.0, 1.0) 


# 设置 y 轴 的 刻度 值 
pl.yticks(np.linspace(-1, 1, 5, endpoint-True)) 


# 用 72dpi 保 存 图 片 
# savefig("exercice_2.png", dpi=72) 


# 在 屏幕 上 显示 结 
pl.show() 


1.0 


IVA 
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1.4.2.3 改变 颜色 和 线 宽度 
提示 : 文档 


e 控制 线 属性 
e API 


首先 ， 我 们 想 要 cosine 是 蓝 色 ，sine 是 红色 ， 两 者 都 是 稍稍 粗 一 点 的 线 。 我 们 也 改 
变 了 一 点 图 片 的 大 小 ， 让 它 更 加 水 平 。 


pl.figure(figsize-(10, 6), dpi-80) 
pl.plot(X, C, color="blue", linewidth-2.5, linestyle="-") 
pl.plot(X, S, color="red",  linewidth-2.5, linestyle="-") 


1.0 


V 


0.5 
0.0 
nai 
P ® 
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1.4.2.4 设置 极 值 
提示 : 文档 
e. xim) AE 
e ylim) EA 
当前 的 图 片 的 极 值 限 制 太 拥挤 了 ， 我 们 希望 留 一 点 空间 以 便 清晰 的 看 到 所 有 的 数据 
点 


JNO 


pl.xlim(X.min() * 1.1, X. 
pl.ylim(C.min() * 1.1, C 


i , 


1.0 
0.5 


0.0 


一 1.0 


1.4.2.5 设置 坐标 轴 刻 度 值 
提示 : 文档 

xticks()15 45 

yticks() 命 兮 

刻度 容器 

刻度 位 置 和 格式 


现在 的 刻度 不 太 理 想 ， 因 为 他 们 没有 显示 对 于 sine 和 cosine 有 意义 的 值 (+/-TT,+/- 
T/2) 。 我 们 将 改变 这 些 刻度 ， 让 他 们 只 显示 这 些 值 。 


pl.xticks([-np.pi, -np.pi/2, 0, np.pi/2, np.pi]) 
pl.yticks([-1, 0, +1]) 


—3.142 —1.571 0.000 1.571 3.142 


1.4.2.6 设置 刻度 标签 
提示 : 文档 

操作 文本 
xticks() 命 兮 
yticks() 命 兮 


set xticklabels() 
set yticklabels() 


刻度 现在 放 在 了 正确 的 位 置 ， 但 是 标签 并 不 是 显而易见 。 我 们 能 想到 3.14 是 mr， 但 
是 最 好 让 它 更 明确 。 


当 我 们 设置 了 刻度 值 ， 我 们 也 可 以 在 第 二 个 参数 中 列 出 对 应 的 标签 。 注 意 我 们 用 
latex 以 便 更 好 的 泻 染 标签 。 


pl.xticks([-np.pi, -np.pi/2, ©, np.pi/2, np.pi], 
[r'$-\pi$', r'$-\pi/2$', r'$0$', r'$+\pi/2$', r'$+\pi$']. 


pl.yticks([-1, ©, +1], 
[ro ESSAS y r' $0$', r'$-1$']) 


al | 


1.4.2.7 f$ zb 
提示 : 文档 


e BH 
坐标 轴 容 器 
e 转换 教程 


脊柱 是 连接 坐标 轴 刻 度 标 记 的 线 ， 记 录 了 数据 范围 的 边界 。 他 们 可 以 被 放 在 任意 的 
位 置 ， 到 目前 位 置 ， 他 们 被 放 在 了 坐标 轴 的 四 周 。 我 们 将 改变 他 们 ， 因 为 我 们 希望 
他 们 在 中 间 。 因 为 有 四 条 (上 下 左右 ) ， 我 们 通过 设置 颜色 为 None 舍 弃 了 顶部 和 右 
4i], FARMERA In DG HERE a) ARGE ig AP as OB 


ax = pl.gca() # gca stands for 'get current axis' 
ax.spines['right'].set color('none') 
ax.spines['top'].set color('none') 
ax.xaxis.set ticks position('bottom') 
ax.spines['bottom'].set position(('data',0)) 
ax.yaxis.set ticks position('left') 
ax.spines['left'].set position(('data',0)) 





1 .4.2.8 添加 图 图 例 
提示 : 文档 

e 图 例 指南 

e legend() 命 兮 


e 图 例 API 


-o emu 这 只 需要 在 plot 命 里 中 添加 关键 词 参 数 label (将 被 用 于 
A BIHE) 。 


pl.plot(X, C, color="blue", linewidth-2.5, linestyle="-", label-"'c« 
pl.plot(X, S, color="red", linewidth=2.5, linestyle="-", label="s: 


pl.legend(loc-'upper left') 





gl 





— cosine 
— sine 





1.4.2.9 标注 一 些 点 
提示 : 文档 
e annotate) aS 


让 我 们 用 annotate 命 邻 标注 一 些 有 趣 的 点 。 我 们 选取 值 2r3， 我 们 想 要 标注 sine 和 
cosine。 首 先 我 们 在 曲线 上 画 出 了 一 个 垂直 的 散 点 标记 线 。 然 后 ， 我 们 将 用 
annotate 4s X zn 5i ASS KH. 


t=2* np.pi /3 


pl. 
pl. 


pl. 


plot([t, t], [0, np.cos(t)], color='blue', linewidth=2.5, lines! 
scatter([t, ], [np.cos(t), ], 50, color-'blue') 


annotate(r'$sin(\frac{2\pi}{3} )=\frac{\sgqrt{3}}{2}$', 
xy=(t, np.sin(t)), xycoords-'data', 
xytext=(+10, +30), textcoords='offset points', fontsize 
arrowprops=dict(arrowstyle="->", connectionstyle="arc3, 


.plot([t, t],[0, np.sin(t)], color='red', linewidth-2.5, linesty. 
.scatter([t, ],[np.sin(t), ], 50, color-'red') 


.annotate(r'$cos(\frac{2\pi}{3})=-\frac{1}{2}$', 
xy=(t, np.cos(t)), xycoords='data', 
xytext=(-90, -50), textcoords='offset points', fontsize 
arrowprops=dict(arrowstyle="->", connectionstyle="arc3, 





— cosine 
— sine 





1.4.2.10 细节 是 魔鬼 


提示 


: 文档 


e Artists 
e BBox 


因为 蓝 色 和 红色 的 线 ， 刻 度 标签 很 难看 到 。 我 们 可 以 让 他 们 更 大 一 些 ， 也 可 以 调整 
他 们 的 属性 以 便 他 们 被 处 理 为 半 透 明 的 白色 背景 。 这 样 我 们 就 可 以 同时 看 到 数据 和 


for label in ax.get xticklabels() + ax.get yticklabels(): 
label.set fontsize(16) 
label.set bbox(dict(facecolor-'white', edgecolor='None', alpha: 











— cosine 
— sine 





1.4.3 图 形 、 子 图 、 轴 和 刻度 


在 matplotlib 中 “图 形 "是 用 户 界面 中 的 整个 窗口 。 在 这 个 图 形 中 可 以 有 “ 子 图 ”。 


到 目前 为 止 ， 我 们 已 经 使 用 图 形 和 创建 数 轴 。 这 对 于 快速 绘图 是 非常 方便 的 。 使 用 
图 形 、 子 图 和 和 我 们 可 以 控制 显示 。 尽 管子 图 将 图 表 放 在 标准 的 网 格 中 ， 轴 可 以 在 
图 形 中 放 在 任意 位 置 。 根 据 你 的 目的 不 同 ， 二 者 都 非常 有 有 用。 我们 也 在 没有 显 式 的 
调用 图 形 和 子 图 时 使 用 了 他 们 。 当 我 们 调用 plot 时 ，matplotlib 调 用 gca() 来 获得 
当前 的 坐标 轴 ， 相 应 的 调用 gcf() 获得 当前 的 图 形 。 如 果 没 有 当前 图 形 ， 那 么 将 
调用 figure() 去 创建 一 个 ， 严 格 来 说 是 创建 一 个 "subplot(111)。 让 我 们 来 详细 看 
一 下 5 


1.4.3.1 图 形 


图 形 是 在 GUI 中 的 窗口 ， 标 题 是 "Figure #"。 图 形 的 标号 从 1 开始 ， 而 不 是 常规 的 
Python 方式 从 0 开始 。 这 明显 是 MATLAB- 风 格 。 这 些 参数 决定 图 形 的 外 观 : 


参数 默认 值 描述 
num 1 图 形 编号 
figsize figure.figsize 以 英寸 表示 的 图 形 大 小 ( 宽 、 高 ) 
dpi figure.dpi 分 辨 率 以 每 英寸 点 数 表示 
facecolor figure.facecolor 背景 
edgecolor figure.edgecolor 背景 边缘 色 
frameon True 是 否 绘制 框架 


默认 值 可 以 在 资源 文件 中 指明 ， 并 在 绝 大 数 时 间 使 用 。 只 有 图 形 数 经 常 被 改变 。 
与 其 他 对 象 类 似 ， 你 可 以 用 setp 或 者 set _something 方 法 设置 图 形 属 性 。 


当 你 使 用 GUI 工作 时 ， 你 可 以 点 击 右上 的 X 关 闭 图 形 。 但 是 ， 你 可 以 通过 调用 close 
用 程序 关闭 图 形 。 根 据 参 数 关闭 不 同 内 容 (1) 当前 图 形 (没有 参数 ) ， (2) 特定 
图 形 (用 图 形 编号 或 图 形 实例 做 参数 ) ， (3) 所 有 图 形 〈"all" 作 为 参数 ) 。 


pl.close(1) # Closes figure 1 


1.4.3.2 F 
用 子 图 你 可 以 将 图 片 放置 在 标准 方 格 中 。 你 需要 指定 行列 数 和 图 片 数 。 注 


意 gridspec 命 令 相 对 更 加 高 级 。 
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subplot(2,1,1) 


subplot(2,1,2) 


subplot(1,2,1) || subplot(1,2,2) 





subplot(2,2,1) subplot(2,2,2) 


1.4 Matplotlib : 22 # 145 
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subplot(2,2,3) subplot(2,2,4) 





Axes 1 


Axes 2 
Axes 3 
Axes 4 Axes 5 


1.4.3.3 轴 


轴 和 与 子 图 非常 类 似 ， 不 过 人 允许 图 形 放 在 图 片 的 任意 位 置 。 因 此 ， 如 果 我 们 想 要 将 一 
个 小 图 形 放 在 一 个 更 大 图 形 中 ， 我 们 可 以 用 轴 。 


1.4 Matplotlib : 绘图 146 
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axes([0.1, 0.1, .8, .8]) 


axes([0.2, 0.2, .3, .3] 


axes([0.4, 0.4, .5, .5]) 
axes([0.3, 0.3, .5, .5]) 
axes([0.2, 0.2, .5, .5]) 


axes([0.1, 0.1, .8, .8]) 





1.4 Matplotlib : 22 # 147 


1.4.3.4 刻度 
格式 良好 的 刻度 是 准备 好 发 布 图 片 的 必要 部 分 。Matplotlib 提 供 了 一 个 完全 可 控 的 刻 
度 系统 。 有 刻度 位 置 来 指定 刻度 该 出 现在 哪 ， 还 有 刻度 格式 来 给 出 你 想 要 的 刻度 外 


观 。 主 刻度 和 子 刻度 可 以 被 独立 放置 和 整理 格式 。 之 前 子 刻度 默认 是 不 显示 的 ， 即 
他 们 只 有 空 列表 ， 因 为 它 是 NullLocator ( 见 下 面 )。 


1.4.3.4.1 刻度 位 置 


刻度 位 置 可 以 控制 的 位 置 。 它 的 设置 如 下 : 


ax = pl.gca() 
ax.xaxis.set major locator(eval(locator)) 


不 同 的 需求 有 多 种 位 置 : 


.NullLocator() 


.MultipleLocator(1.0) 





0 1 2 3 4 5 6 7 8 9 1C 
.FixedLocator([O, 2, 8, 9, 10]) 

0 2 8 9 1C 

.IndexLocator(3, 1) 

1 4 7 1C 

.LinearLocator(5) 

).0 2:5 5.0 7.5 10. 

.LogLocator(2, [1.0]) 
0.5 1.0 2.0 4.0 8.0 
.AutoLocator() 
0 2 4 6 8 1C 


所 有 这 些 位 置 都 可 以 从 基础 类 matplotlib.tickerLocator 衍 生出 来 。 你 可 以 从 中 衍生 
出 你 自己 的 位 置 。 将 日 期 处 理 为 刻度 特别 困 哪 。 因 此 ， matplotlib 提供 了 特殊 
的 位 置 matplotlib.dates 。 


1.4.4 其 他 类 型 的 图 形 : 例子 与 练习 


1.4.4.1 常规 图 形 


提示 : 你 可 以 使 用 fl between 4s, 
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从 下 面 的 代码 开始 ， 试 着 重新 生成 这 个 图 片 ， 小 心 处 理 填充 区 域 : 


256 
np.linspace(-np.pi, np.pi, n, endpoint-True) 


n 
X 
Y np.sin(2 * X) 


pl.plot(X, Y + 1, color='blue', alpha=1.00) 
pl.plot(X, Y - 1, color='blue', alpha=1.00) 


点 击 图 片 查看 答案 。 


1.4.4.2 MAW 
提示 : 颜色 根据 角度 进行 分 配 


1.4 Matplotlib : 绘图 149 
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n-1 
X - np.random.normal(0,1,n) 
Y = np.random.normal(0,1,n) 


pl.scatter(X,Y) 


点 击 图 片 查看 答案 。 


1.4.4.3 柱状 图 
提示 : 你 需要 小 心 文本 对 齐 


1.4 Matplotlib : 绘图 150 
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从 下 面 的 代码 开始 ， 试 着 重新 生成 这 个 图 片 ， 添 加 红 柱 的 标签 。 


n 
X - np.arange(n) 

Y1 = (1 - X / float(n)) * np.random.uniform(0.5, 1.0, n) 
Y2 = (1 - X / float(n)) * np.random.uniform(0.5, 1.0, n) 


pl.bar(X, +Y1, facecolor-'£Z9999ff', edgecolor='white' ) 
pl.bar(X, -Y2, facecolor='#ff9999', edgecolor='white' ) 


for x, y in zip(X, Y1): 
pl.text(x + 0.4, y + 0.05, '%.2f' % y, ha='center', va='bottom 


pl.ylim(-1.25, +1.25) 
点 击 图 片 查看 答案 。 





1.4.4.4 轮廓 图 


提示 : 你 需要 是 使 用 clabel 命 今 。 


1.4 Matplotlib : 绘图 151 
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从 下 面 的 代码 开始 ， 试 着 重新 生成 这 个 图 片 ， 小 心 处 理 colormap ( 见 下 面 的 
Colormaps)。 


def f(x, y): 
return (1 - x/2+x**5+Yy** 3) * np.exp(-x ** 2 -y ** 2) 


256 

np.linspace(-3, 3, n) 
np.linspace(-3, 3, n) 
, Y = np.meshgrid(x, y) 


n 
X 
y 
X 


pl.contourf(X, Y, f(X, Y), 8, alpha-.75, cmap-'jet') 
C = pl.contour(X, Y, f(X, Y), 8, colors-'black', linewidth=.5) 


B] E 


点 击 图 片 查看 答案 。 


1.4.4.5 Imshow 
提示 : 你 需要 小 心 处 理 在 imshow 命 令 中 的 图 像 原 点 并 使 用 colorbar 


1.4 Matplotlib : 绘图 152 
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从 下 面 的 代码 开始 ， 试 着 重新 生成 这 个 图 片 ， 小 心 处 理 colormap 和 图 像 插入 以 及 原 


IWNO 


def f(x, y): 
return (1 x / 2 4 x ** 5 + y 5*3) *"nprexp(sx ** 2 y ** 9 


10 

np.linspace(-3, 3, 4 * n) 
np.linspace(-3, 3, 3 * n) 
X, Y - np.meshgrid(x, y) 
pl.imshow(f(X, Y)) 


SR | 
点 击 图 片 查看 答案 。 


< x5 
HoH ul 


1.4.4.6 饼 图 


提示 : 你 需要 调整 Z。 


1.4 Matplotlib : 绘图 153 





WD 
WV 


从 下 面 的 代码 开始 ， 试 着 重新 生成 这 个 图 片 ， 小 心 处 理 颜 色 和 切片 大 小 。 





Z = np.random.uniform(0, 1, 20) 
pl.pie(Z) 


点 击 图 片 查看 答案 。 


1.4.4.7 梯度 图 
提示 : 你 需要 绘制 两 次 箭头 。 
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= np.mgrid[0:n, O:n] 


l.quiver(X, Y) 


点 击 图 片 查看 答案 。 


1.4.4.8 网 格 


1.4 Matplotlib : 绘图 155 





从 下 面 的 代码 开始 ， 试 着 重新 生成 这 个 图 片 ， 小 心 处 理 线 的 样式 。 


axes 


axes. 
axes. 
axes. 
axes. 


- pl.gca() 

set xlim(0, 4) 

set ylim(0, 3) 

set xticklabels([]) 
set yticklabels([]) 


点 击 图 片 查看 答案 。 


1.4.4.9 多 


提示 : 你 可 以 用 不 同 的 分 割 来 使 用 多 个 子 图 。 


LII. 


pl.subplot(2, 2, 1) 
pl.subplot(2, 2, 3) 
pl.subplot(2, 2, 4) 


点 击 图 片 查看 答案 。 


1.4.4.10 REIR 


提示 : 你 只 需要 修改 axes 17. 
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从 下 面 的 代码 开始 ， 试 着 重新 生成 这 个 图 片 。 


pl.axes([0, ©, 1, 1]) 


N - 20 

theta = np.arange(0., 2 * np.pi, 2 * np.pi / N) 
radii - 10 * np.random.rand(N) 

width - np.pi / 4 * np.random.rand(N) 


bars = pl.bar(theta, radii, width=width, bottom=0.0) 


for r, bar in zip(radii, bars): 
bar.set facecolor(cm.jet(r / 10.)) 
bar.set alpha(0.5) 


点 击 图 片 查看 答案 。 


1.4.4.11 3D 绘 图 


提示 : 你 需要 使 用 contourf 


1.4 Matplotlib : 绘图 158 





从 下 面 的 代码 开始 ， 试 着 重新 生成 这 个 图 片 。 


from mpl toolkits.mplot3d import Axes3D 


fig - pl.figure() 

ax = Axes3D(fig) 
np.arange(-4, 4, 0.25) 
np.arange(-4, 4, 0.25) 

Y = np.meshgrid(X, Y) 
np.sqrt(X**2 + Y**2) 
np.sin(R) 


NA X Xx 


ax.plot surface(X, Y, Z, rstride=1, cstride=1, cmap='hot' ) 


点 击 图 片 查看 答案 。 
更 多 请 见 : 用 Mayavi 3D 绘 图 


1.4.4.12 文本 


提示 : 看 一 下 matplotlib 标 识 








四 
Bae =A wc eee 


| 





试 着 从 0 开始 做 这 个 事情 | 
点 击 图 片 查看 答案 。 
快速 阅读 


如 果 你 想 要 快速 看 一 下 Scipy 讲 座 以 便 了 解 生态 系统 ， 你 可 以 直接 跳 到 下 一 章 : 
Scipy : 高 级 科学 计算 。 
本 章 的 剩余 部 分 对 理解 其 他 的 介绍 部 分 不 是 必须 的 。 但 是 ， 请 确保 在 稍 后 回来 完成 


这 个 章节 。 


1.4.5 这 本 教程 之 外 


Matplotlib 从 大 量 的 文档 以 及 用 户 和 开发 者 社区 中 收益 菲 浅 。 这 里 是 一 些 有 趣 的 链 
B: 


1.4.5.1 教程 
e Pyplot 教 程 


控制 line 属 性 
处 理 多 个 图 形 和 坐标 轴 
处 理 文本 


o 
o 
o 
o 


e Image fe 
o 开始 命令 
o 从 Numpy 数 组 中 导入 图 像 数 据 
o 将 numpy 数 组 绘制 为 图 像 
@ Text 教 程 
o Text 介绍 
o 基本 text 命 兮 
o Text 属性 和 布局 
写 数 学 表达 式 
用 LaTeX 演 染 文本 
文本 注释 
介绍 
自 定义 你 的 对 象 
对 象 容器 
Figure 容 器 
Axes 容 器 
Axis 容 器 
o 刻度 容器 
e Path 教 程 
o 介绍 
o Bezier 例 子 
o 复合 路 径 
e 转换 教程 
o 介绍 
o 数据 坐标 
o Axes 坐 标 
o 混合 转换 
o 用 offset 转 换 来 穿 件 一 个 阴影 效果 
o pipline 转 换 


"cT 


1.4.5.2 Matplotlib x T4 


e 用 
em 


故障 排除 
环境 变量 
屏幕 截图 


1.4.5.3 代码 文档 
代码 都 有 很 好 的 文档 ， 你 可 以 在 Python 会 话 中 用 特定 命令 很 快 的 访问 : 
In [3]: 


Ri 
Ms 
o 
Oo 
o 
oO 


import pylab as pl 
help(pl.plot) 


Help on function plot in module matplotlib.pyplot: 


plot(*args, **kwargs) 
Plot lines and/or markers to the 
:class:"-matplotlib.axes.Axes'.  *args* is a variable length 
argument, allowing for multiple *x*, *y* pairs with an 
optional format string. For example, each of the following is 


legal:: 
plot(x, y) # plot x and y using default line style : 
plot(x, y, 'bo') # plot x and y using blue circle markers 
plot(y) # plot y using x as index array 0..N-1 
plot(y, reb) # ditto, but with red plusses 


If *x* and/or *y* is 2-dimensional, then the corresponding coli 
will be plotted. 


An arbitrary number of *x*, *y*, *fmt* groups can be 
specified, as in:: 


a.plot(x1, y1, bg x2, y2, ds 
Return value is a list of lines that were added. 


By default, each line is assigned a different color specified | 
'color cycle'. To change this behavior, you can edit the 
axes.color cycle rcParam. 


The following format string characters are accepted to control 
the line style or marker: 


ToS solid line style 
ucc dashed line style 
Dea dash-dot line style 
RUE ie dotted line style 
ERE point marker 


DP pixel marker 
dU ONE circle marker 
MO OM triangle down marker 
VIL triangle up marker 
uc a triangle left marker 
C QE triangle right marker 
a tri down marker 


LE tri up marker 


pue tri left marker 


rcc tri right marker 
CESAR square marker 
usps pentagon marker 
Nine star marker 

Pu Dd hexagoni marker 

|o uf hexagon2 marker 

pa ae plus marker 

Er ON x marker 

UE C diamond marker 

SEC] rM thin diamond marker 


Pu A vline marker 
EUN hline marker 


The following color abbreviations are supported: 


Me blue 
'g' green 
Hes red 

cles cyan 
'm' magenta 
yo yellow 
dka black 
'w' white 


In addition, you can specify colors in many weird and 
wonderful ways, including full names (``'green'``), hex 
strings (``'#008000'``), RGB or RGBA tuples (``(0,1,0,1)``) or 
grayscale intensities as a string (``'0.8'``). Of these, the 
string specifications can be used in place of a ``fmt`` group, 
but the tuple forms can be used only as "' kwargs''. 


Line styles and colors are combined in a single format string, 
"'bo'"" for blue circles. 


The *kwargs* can be used to set line properties (any property 1 
a "set *"' method). You can use this to set a line label (foi 
legends), linewidth, anitialising, marker face color, etc. Het 
example: : 


plot([1,2,3], [1,2,3], 'go-', label='line 1', linewidth=2) 
plot([1,2,3], [1,4,9], 'rs', label='line 2') 

axis([0, 4, ©, 10]) 

legend() 


If you make multiple lines with one plot command, the kwargs 
apply to all those lines, e.g.:: 


plot(x1, y1, x2, y2, antialised-False) 
Neither line will be antialiased. 


You do not need to use format strings, which are just 
abbreviations. All of the line properties can be controlled 
by keyword arguments. For example, you can set the color, 
marker, linestyle, and markercolor with:: 


plot(x, y, color-'green', linestyle-'dashed', marker='o', 
markerfacecolor-'blue', markersize-12). 


See :class: -matplotlib.lines.Line2D' for details. 
The kwargs are :class: -matplotlib.lines.Line2D' properties: 


agg filter: unknown 

alpha: float (0.0 transparent through 1.0 opaque) 

animated: [True | False] 

antialiased or aa: [True | False] 

axes: an :class: -matplotlib.axes.Axes' instance 

clip box: a :class: matplotlib.transforms.Bbox^ instance 
clip on: [True | False] 

clip path: [ (:class: -matplotlib.path.Path', :class 
color or c: any matplotlib color 

contains: a callable function 

dash capstyle: ['butt' | 'round' | 'projecting'] 

dash joinstyle: ['miter' | 'round' | 'bevel'] 

dashes: sequence of on/off ink in points 

drawstyle: ['default' | 'steps' | 'steps-pre' | 'steps-mid' 
figure: a :class: matplotlib.figure.Figure instance 
fillstyle: ['full' | 'left' | 'right' | "bottom' | 'top' | 'r 
gid: an id string 

label: string or anything printable with '%s' conversion. 
Iinestyleto rris: iron | 
linewidth or lw: float value in points 

lod: [True | False] 

marker: unknown 

markeredgecolor or mec: any matplotlib color 
markeredgewidth or mew: float value in points 
markerfacecolor or mfc: any matplotlib color 
markerfacecoloralt or mfcalt: any matplotlib color 
markersize or ms: float 

markevery: unknown 

path_effects: unknown 

picker: float distance in points or callable pick function 
pickradius: float distance in points 

rasterized: [True | False | None] 

sketch_params: unknown 

snap: unknown 

solid_capstyle: ['butt' | 'round' | 'projecting'] 
solid_joinstyle: ['miter' | 'round' | 'bevel'] 

transform: a :class:`matplotlib.transforms.Transform` instant 


url: a url string 
visible: [True | False] 
xdata: 1D array 

ydata: 1D array 

zorder: any number 


kwargs *scalex* and *scaley*, if defined, are passed on to 
:meth:^-matplotlib.axes.Axes.autoscale view to determine 
whether the *x* and *y* axes are autoscaled; the default is 
*True*. 


Additional kwargs: hold - [True|False] overrides default hold : 


ajo 





1.4.5.4 EBR 


当 你 搜索 如 何 提供 一 个 特定 图 片 时 ，matplotlib 画 证 也 非常 有 用 。 每 个 例子 都 有 源 
码 o 


这 里 有 一 个 小 的 画 亡 。 

1.4.5.5 邮件 列表 

最 后 ， 你 可 以 在 用 户 邮 件 列 表 寻 求 帮 助 ， 而 开发 者 邮件 列表 则 更 偏 技 术 。 
1.4.6 快速 参考 

这 里 是 一 组 表格 ， 显 示 了 主要 的 属性 和 样式 。 


1.4.6.1 Line 属 性 


属性 


alpha (or a) 
antialiased 


color (or c) 
linestyle (or Is) 
linewidth (or Iw) 
solid capstyle 
solid joinstyle 
dash capstyle 
dash joinstyle 
marker 


markeredgewidth 
(mew) 


markeredgecolor 
(mec) 


markerfacecolor 
(mfc) 


markersize (ms) 


1.4.6.2 线 样式 


描述 
alpha 0-1 范 围 的 透明 度 


True or False - use 
antialised rendering 


matplotlib zii BBR 

see Line 属 性 

浮 点 , 线 宽度 用 小 数 表示 
实 线头 的 样式 

实 线 的 连接 样式 
虚线 头 的 样式 

虚线 的 连接 样式 


see 标记 


标记 符号 的 线 宽度 
标记 边缘 的 颜色 


标记 的 填充 颜色 


标记 的 大 小 ， 以 小 数 表示 


Anti-aliased 


外 观 


Aliased 


ENSE OM 
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1.4.6.4 Colormaps 


所 有 colormap 都 可 以 通过 添加 _r 来 进行 颜色 反 转 。 例 如 gray r 是 gray 的 补 


o 


如 果 你 想 要 更 多 了 解 colormaps， 检 查 一 下 matplotlib colormaps 的 文档 


1.4 Matplotlib : 绘图 167 
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1.5 Scipy : 高 级 科学 计算 


作者 : Adrien Chauve, Andre Espaze, Emmanuelle Gouillart, Gaél Varoquaux, 
Ralf Gommers 


Scipy 


scipy 包 包 含 许 多 专注 于 科学 计算 中 的 常见 问题 的 工具 箱 。 它 的 子 模块 对 应 于 不 
同 的 点 用 ， 上 比如 插值 、 积 分 、 优 化 、 图 像 处 理 、 统 计 和 特殊 功能 等 。 


scipy 可 以 与 其 他 标准 科学 计算 包 相 对 比 ， "cL e cm 
&), 或 者 Matlab 的 工具 箱 。 scipy 是 Python 中 科学 程序 的 核心 程序 包 ; 这 意味 着 
有 效 的 操作 numpy 数组 ， 因 此 ，numpy 和 scipy 可 以 一 起 工作 。 


在 实现 一 个 程序 前 ， 有 必要 确认 一 下 需要 的 数据 处 理 时 候 已 经 在 scipy 中 实现 。 作 为 
非 专 业 程 序 员 ， 科学 家 通常 倾向 于 重新 发 明 轮 子 ， 这 产生 了 小 玩具 、 不 优化 、 很 难 
分 享 以 及 不 可 以 维护 的 代码 。 相 反 ， scipy 的 程序 是 优化 并 且 测 试 过 的 ， 因此 应 该 尽 
可 能 使 用 。 


警告 这 个 教程 根本 不 是 数值 计算 的 介绍 。 因 为 列举 scipy 的 不 同 子 模块 和 功能 将 会 
ries 相反 我 们 将 聚 e ee 些 例子 ， 给 出 如 何 用 scipy 进 行 科学 计算 的 
大 概 思路 。 


scipy 是 由 针对 特定 任务 的 子 模块 组 成 的 : 


scipy.cluster 向 量 计 算 / Kmeans 
scipy.constants 物理 和 数学 常量 
Scipy-fftpack 傅 里 叶 变 换 
scipy.integrate 积分 程序 
scipy.interpolate 插值 

scipy.io 数据 输入 和 输出 
scipy.linalg 线性 代数 程序 
scipy.ndimage n- 维 图 像 包 
scipy.odr 正 交 距离 回 为 
scipy.optimize 优化 
scipy.signal 信号 义理 
scipy.sparse Tis IL AB E 
scipy.spatial 空间 数据 结构 和 算法 
scipy.special — ERAS AL 
scipy.stats 统计 


他 们 全 都 依赖 于 numpy, 但 是 大 多 数 是 彼此 独立 的 。 导 入 Numpy 和 Scipy 的 标准 方 


IN. 


In [1]: 


import numpy as np 
from scipy import stats # 其 他 的 子 模块 类 似 


scipy 的 主要 命名 空间 通常 包含 的 函数 其 实 是 numpy ( 试 一 下 scipy.cos HX 
是 np.cos )。 这 些 函 数 的 暴露 只 是 因为 历史 原因 ; 通常 没有 必要 在 你 的 代码 中 使 
用 import scipy 。 


1.5.1 文件 输入 /输出 : scipy.io 


载 人 和 保存 matlab 文 件 : 
In [2]: 


from scipy import io as spio 

a - np.ones((3, 3)) 

spio.savemat('file.mat', {'a': aj) # savemat expects a dictionary 
data - spio.loadmat('file.mat', struct as record-True) 

data['a'] 


«| | 





Out[2]: 


array([[ 1 
[usps 
[ 1 


from scipy import misc 
misc.imread('fname.png') 

4 Matplotlib 也 有 类 似 的 方法 

import matplotlib.pyplot as plt 
plt.imread('fname.png') 


更 多 请 见 : 


e 加 载 文本 文件 : numpy.loadtxt()/numpy.savetxt() 
e 智能 加 载 文本 /csv 文 件 : numpy.genfromtxt()/numpy.recfromcsv() 
e 快速 有 效 ， 但 是 针对 numpy 的 二 进 制 格式 : numpy.save()/numpy.load() 


1.5.2 FRE : scipy.special 


特殊 函数 是 超 验 函数 。scipy.special 模 块 的 文档 字符 串 写 的 很 详细 ， 因 此 我 们 不 会 
在 这 里 列 出 所 有 的 函数 。 常 用 的 一 些 画 数 如 下 : 


。 贝 塞 尔 画 数 ， 比 如 scipy.special.jn() (第 n 个 整 型 顺序 的 贝 塞 尔 芳 数 ) 

e HAR) ENR ( scipy.special.ellipj() Jacobiant# E] ES ZR, ...) 

e Gamma RX: scipy.special.gamma(), 也 要 注意 
scipy.special.gammaln() 将 给 出 更 高 准确 数值 的 Gamma 的 log。 

e Erf, 高 斯 曲线 的 面积 : scipy.special.erf() 


1.5.3 线性 代数 操作 : scipy.linalg 


scipy.linalg 模块 提供 了 标准 的 线性 代数 操作 ， 这 依赖 于 底层 的 高 效 实现 (BLAS, 
LAPACK) 。 

e scipy.linalg.det() Rit BARAT : 
In [3]: 


from scipy import linalg 
arr - np.array([[1, 2], 


[3, 4]]) 
linalg.det(arr) 


Out[3]: 


-2.0 


In [4]: 


arr - np.array([[3, 2], 


[6, 4]]) 
linalg.det(arr) 


Out[4]: 


In [5]: 


linalg.det(np.ones((3, 4))) 


ValueError Traceback (most recent c: 
«ipython-input-5-4d4672bd00a7» in «module»() 
----> 1 linalg.det(np.ones((3, 4))) 


/Library/Python/2.7/site-packages/scipy/linalg/basic.pyc in det(a, 


440 al = np.asarray(a) 

441 if len(ai.shape) != 2 or al.shape[0] != ai.shape[1]: 
--> 442 raise ValueError('expected square matrix') 

443 overwrite a = overwrite a or _datacopied(ai, a) 

444 fdet, = get flinalg funcs(('det',), (a1,)) 


ValueError: expected square matrix 

ls] = m 
e scipy.linalg.inv() KAGA XA : 

In [6]: 





arr - np.array([[1, 2], 


[3, 4]]) 
iarr - linalg.inv(arr) 
iarr 

Out[6]: 


array([[-2\., 1\. ], 
[ 1.5, -0.5]]) 


In [7]: 
np.allclose(np.dot(arr, iarr), np.eye(2)) 
Out[7]: 


True 


mei eX SABE (行列 式 为 0) 将 抛 出 LinAlgError 


In [8]: 
arr - np.array([[3, 2], 
[6, 4]]) 
linalg.inv(arr) 
LinAlgError Traceback (most recent c: 


«ipython-input-8-e8078a9a17b2» in «module»() 
1 arr - np.array([[3, 2], 
2 [6, 4]]) 


----> 3 Janalg.inv(arr) 


/Library/Python/2.7/site-packages/scipy/linalg/basic.pyc in inv(a, 


381 inv a, info - getri(lu, piv, lwork-lwork, overwrite li 
382 if info > O: 

--> 383 raise LinAlgError("singular matrix") 

384 if info < O: 

385 raise ValueError('illegal value in %d-th argument of : 


LinAlgError: singular matrix 


:J — 








e 还 有 更 多 高 级 的 操作 ， 奇 异 值 分 解 (SVD) 
In [9]: 


arr = np.arange(9).reshape((3, 3)) + np.diag([1, ©, 1]) 
uarr, spec, vharr - linalg.svd(arr) 


结果 的 数组 频谱 是 : 
In [10]: 


spec 


Out[10]: 

array([ 14.88982544, ^ 0.45294236, 0.29654967] ) 
原始 矩阵 可 以 用 svd 和 np.dot 矩阵 相 乘 的 结果 重新 获得 : 
In [11]: 


sarr - np.diag(spec) 
svd mat - uarr.dot(sarr).dot(vharr) 
np.allclose(svd mat, arr) 


Out[11]: 


True 


SVD 常 被 用 于 统计 和 信号 人 处理。 其 他 标准 分 解 (QR, LU, Cholesky, Schur), 以 及 线 
性 系统 的 求解 器 ， 也 可 以 在 scipy.linalg 中 找到 。 


1.5.4 快速 傅立叶 变换 : scipy.fftpack 


scipy.fftpack 模块 允许 计算 快速 傅立叶 变换 。 例 子 ， 一 个 《有 噪音 ) 的 信号 输入 是 
这 样 : 


In [12]: 


time step - 0.02 

period - 5. 

time vec - np.arange(0, 20, time step) 

sig = np.sin(2 * np.pi / period * time vec) + \ 
0.5 * np.random.randn(time vec.size) 


观察 者 并 不 知道 信号 的 频率 ， 只 知道 抽样 时 间 步 又 的 信号 sig 。 假 设 信号 来 自 真 
实 的 函数 ， 因 此 傅立叶 变换 将 是 对 称 的 。scipy.fftpack.fftfreq() 函数 将 生成 样本 序 
列 ， 而 将 计算 快速 傅立叶 变换 : 


In [13]: 


from scipy import fftpack 
sample freq - fftpack.fftfreq(sig.size, d-time step) 
sig fft - fftpack.fft(sig) 


因为 生成 的 千 是 对 称 的 ， 寻 找 频 率 只 需要 使 用 频谱 为 正 的 部 分 : 
In [14]: 


pidxs = np.where(sample freq > 0) 
freqs = sample freq[pidxs] 
power - np.abs(sig fft)[pidxs] 


Peak frequency 


0.050.100.150.200.250.300.350.400.45 





Frequency [Hz] 
寻找 信号 频率 : 
In [15]: 


freq = freqs[power.argmax( )] 
np.allclose(freq, 1./period) # 检查 是 否 找 到 了 正确 的 频率 


Out[15]: 


True 


现在 高 频 噪 音 将 从 傅立叶 转换 过 的 信号 移 除 : 
In [16]: 


sig fft[np.abs(sample freq) > freq] = 0 


^E Maat yest BAR m n] LA RAscipy.fftpack. ifft() IR : 
In [17]: 


main_sig = fftpack.ifft(sig_fft) 


查看 结果 : 
In [18]: 


import pylab as plt 

plt.figure() 

plt.plot(time vec, sig) 
plt.plot(time vec, main sig, linewidth-3) 
plt.xlabel('Time [s]') 
plt.ylabel('Amplitude') 


/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/si! 
return array(a, dtype, copy-False, order-order) 


[e| pc LLL] 


Out[18]: 





«matplotlib.text.Text at 0x107484b10> 
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numpy.fft 


Numpy 也 有 一 个 FFT(numpy.fft) 实 现 。 但 是 ， 通 常 scipy 的 实现 更 受 欢 迎 ， 因 为 ， 他 
使 用 更 高 效 的 底层 实现 。 


实例 : 寻找 粗略 周期 


Population number ( 10? ) 





0 
1900 1905 1910 1915 1920 
Year 
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Power (-10° ) 


实例 : 高 斯 图 片 模 糊 

弯曲 : 

$f 1(t) = \int dt^, K(t-t') f_O(t')$ 

$\tilde{f}_1(\omega) = \tilde{K}(\omega) \tilde{f}_O(\omega)$ 


100 


150 





练习 : 月 球 登陆 图 片 降 噪 
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1. 检查 提供 的 图 片 moonlanding.png， 图 片 被 周期 噪音 污染 了 。 在 这 个 练习 中 ， 
我 们 的 目的 是 用 快速 傅立叶 变换 清除 噪音 。 


2. 用 pylab.imread() 加 载 图 片 。 


3. 寻找 并 使 用 在 scipy.fftpack 中 的 2-D FFT 函数， 绘制 图像 的 频谱 (傅立叶 变 
He) 。 在 可 视 化 频谱 时 是 否 遇 到 了 麻烦 ? 如 果 有 的 话 ， 为 什么 ? 


4. 频谱 由 高 频 和 低频 成 分 构成 。 品 音 被 包含 在 频谱 的 高 频 部 分 ， 因 此 将 那些 部 分 
设置 为 0 (使 用 数组 切片 ) 。 


5. 应 用 逆 傅 立 叶 变 换 来 看 一 下 结果 图 片 。 


1.5.5 优化 及 拟 合 : scipy.optimize 


优化 是 寻找 最 小 化 或 等 式 的 数值 解 的 问题 。 


scipy.optimize 模块 提供 函数 最 小 化 (标量 或 多 维度 ) 、 曲 线 拟 合 和 求 根 的 有 用 
算法 。 


In [19]: 


from scipy import optimize 


寻找 标量 画 数 的 最 小 值 


让 我 们 定义 下 面 的 函数 : 
In [20]: 
def f(x): 


return x**2 + 10*np.sin(x) 


绘制 它 : 


In [21]: 


x - np.arange(-10, 10, 0.1) 
plt.plot(x, f(x)) 
plt.show() 
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找到 这 个 函数 的 最 小 值 的 常用 有 效 方式 是 从 给 定 的 初始 点 开始 进行 一 个 梯度 下 降 。 
BFGS 算 法 是 这 样 做 的 较 好 方式 : 


In [22]: 


optimize.fmin bfgs(f, 0) 


Optimization terminated successfully. 
Current function value: -7.945823 
Iterations: 5 
Function evaluations: 24 
Gradient evaluations: 8 


Out[22]: 


array([-1.30644003]) 


这 个 方法 的 一 个 可 能 问题 是 ， 如 果 这 个 画 数 有 一 些 局 部 最 低 点 ， 算 法 可 能 找到 这 些 
局 部 最 低 点 而 不 是 全 局 最 低 点 ， 这 取决 于 初始 点 : 
In [23]: 


optimize.fmin bfgs(f, 3, disp-0) 


Out[23]: 


array([ 3.83746663]) 


如 果 我 们 不 知道 全 局 最 低 点 ， 并 且 使 用 其 临近 点 来 作为 初始 点 ， 那 么 我 们 需要 付出 
昂贵 的 代价 来 获得 全 局 最 优 。 要 找到 全 局 最 优点 ， 最 简单 的 算法 是 暴力 算法 ， 算 法 
会 评估 给 定 网 格 内 的 每 一 个 点 : 
In [24]: 
grid = (-10, 10, 0.1) 


xmin_global = optimize.brute(f, (grid, )) 
xmin_global 


Out[24]: 
array([-1.30641113]) 

对 于 更 大 的 网 格 ，scipy.optimize.brute() 变 得 非常 慢 。scipy.optimize.anneal() 提供 

了 一 个 替代 的 算法 ， 使 用 模拟 退火 。 对 于 不 同类 型 的 全 局 优化 问题 存在 更 多 的 高 效 


算法 ， 但 是 这 超出 了 scipy 的 范畴 。OpenOpt、IPOPT、PyGMO 和 PyEvolve 是 
关于 全 局 优化 的 一 些 有 用 的 包 。 


要 找 出 局 部 最 低 点 ， 让 我 们 用 scipyoptimize.fminbound 将 变量 限制 在 (0,10) 区 间 : 
In [25]: 


xmin local = optimize.fminbound(f, 0, 10) 
xmin local 


Out[25]: 


3.8374671194983834 


注 : 寻找 函数 的 最 优 解 将 在 高 级 章节 中 : 数学 优化 : 寻找 函数 的 最 优 解 详细 讨论 。 


寻找 标量 函数 的 根 
要 寻找 上 面 函 数 f 的 根 ， 比 如 f(x)=0 的 一 个 点 ， 我 们 可 以 用 比如 


scipy.optimize.fsolve() : 


In [26]: 


root = optimize.fsolve(f, 1) # 我 们 的 最 初 猜想 是 1 
root 


Out[26]: 
array([ 0.]) 


注意 只 找到 一 个 根 。 检 查 f 的 图 发 现在 -2.5 左 右 还 有 应 该 有 第 二 个 根 。 通 
们 最 初 的 猜想 ， 我 们 可 以 发 现 正 确 的 值 : 


In [27]: 


root2 = optimize.fsolve(f, -2.5) 
root2 


Out[27]: 


array([-2.47948183]) 


曲线 拟 合 
假设 我 们 有 来 自 f 的 样 例 数据 ， 带 有 一 些 噪音 
In [28]: 
xdata = np.linspace(-10, 10, num=20) 
ydata = f(xdata) + np.random.randn(xdata.size) 


过 调整 我 


现在 ， 如 果 我 们 知道 这 些 sample 数 据 来 自 的 函数 (这 个 案例 中 是 $x^2 + sin(x)$) 
的 汞 数 形式 ， 而 不 知道 每 个 数据 项 的 系数 ， 那 么 我 们 可 以 用 最 小 二 乘 曲 线 拟 合 在 找 


到 这 些 系数 。 首 先 ， 我 们 需要 定义 图 数 来 拟 合 : 
In [29]: 


def f2(x, a, b): 
return a*x**2 + b*np.sin(x) 
然后 我 们 可 以 使 用 scipyoptimize.curve_fit() 来 找到 a 和 b 
In [30]: 


guess = [2, 2] 
params, params covariance - optimize.curve fit(f2, xdata, ydata, gt 
params 


Out[30]: 


EE 





array([ 0.99719019, 10.27381534]) 


现在 我 们 找到 了 f 的 最 优 解 和 根 ， 并 且 用 曲线 去 拟 合 它 ， 我 们 将 这 些 结果 整合 在 
一 个 图 中 : 


120 
— f(x) 
100 | -- Curve fit result 
e e Minima 
80 v v Roots 
60 
x 
= 
40 
20 
0 
—20 
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X : 在 Scipy >= 0.11 中 ， 包 含 所 有 最 小 值 和 寻找 根 的 算法 的 统一 接 

口 : scipy.optimize.minimize()、 scipy.optimize.minimize_scalar() 和 
scipy.optimize.root()。 他 们 人 允许 通过 method 关键 词 容易 的 比较 多 种 算法 。 
你 可 以 在 scipy.optimize 中 找到 对 于 多 维度 问题 有 相同 功能 的 算法 。 

练习 : 温度 数据 的 曲线 拟 合 


下 面 是 从 1 月 开始 阿拉 斯 加 每 个 月 的 温度 极 值 (摄氏度 ) 


最 大 值 : 17, 19, 21, 28, 33, 38, 37, 37, 31, 23, 19, 18 
最 小 值 : -62, -59, -56, -46, -32, -18, -9, -13, -25, -46, -52, -58 


. 绘制 这 些 温 度 极 值 。 

. 定义 一 个 画 数 ， 可 以 描述 温度 的 最 大 值 和 最 小 值 。 提 示 : 这 个 图 数 的 周期 是 一 
年 。 提 示 : 包含 时 间 偏 移 。 

3. dr a 

4. 绘制 结果 。 这 个 拟 合 合理 吗 ? 如 果 不 合理 ， 为 什么 ? 

5. 

2 


N 一 


最 低温 度 和 最 高 温度 的 时 间 偏 移 是 否 与 拟 合 一 样 精确 ? 
3] : 2-D 最 小 值 


Six-hump Camelback function 





X : , , 
f(x,y) = (4 — 2.4z* + —)x? + xy + (Ay? — Ay 


有 多 个 全 局 和 局 部 最 低 点 。 找 到 这 个 函数 的 全 局 最 低 点 。 
提示 : 
e 变量 可 以 被 限定 在 -2<x<2 和 -1<y<1。 
e Finumpy.meshgrid() 和 pylab.imshow() 来 从 视觉 上 来 寻找 区 域 。 
e scipy.optimize.fmin bfgs() 或 者 另 一 个 多 维 最 小 化 。 多 几 个 全 局 最 小 值 ， 那 些 
点 上 的 函数 值 十 多 少 ? 如 果 最 初 的 猜测 是 $(x, y) = (0, 0)$ 会 怎样 ? 
看 一 Hbc EE 乘 曲线 拟 合 : 地 形 机 载 激 光 雷 达 数据 中 的 点 抽取 练习 的 总 结 ， 
以 及 更 高 及 的 例子 


1.5.6. 统计 和 随机 效 : scipy.stats 


scipy.stats 模 块 包含 统计 工具 和 随机 过 程 的 概率 描述 。 在 numpy.random 中 可 以 找 
到 多 个 随机 数 生成 器 。 


1.5.6.1 让 方 图 和 概率 密度 函数 


给 定 随机 过 程 的 观察 值 ， 它 们 的 直方 图 是 随机 过 程 的 PDF (概率 密度 责 数 ) 的 估计 
值 : 


In [31]: 


a = np.random.normal(size-1000) 
bins - np.arange(-4, 5) 
bins 


Out[31]: 


array([-4, -3, -2, -1, 0, 1, 2, 3, 4] 


In [32]: 


histogram = np.histogram(a, bins-bins, normed=True) [0] 
bins = 0.5*(bins[1:] + bins[:-1]) 
bins 


Out[32]: 


array([-3.5, -2.5, 91.5, 50.5, 0.5, 1.5, 2.5, 3.5]) 


In [35]: 


from scipy import stats 

import pylab as pl 

b = stats.norm.pdf(bins) # norm 是 一 种 分 布 
pl.plot(bins, histogram) 

pl.plot(bins, b) 


Out[35]: 


[<matplotlib.lines.Line2D at 0x10764cd10>] 
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如 果 我 们 知道 随机 过 程 属于 特定 的 随机 过 程 家 族 ， 比 如 正 态 过 程 ， 我 们 可 以 做 一 个 
o a a 
Mim 


In [5]: 


loc, std = stats.norm.fit(a) 
loc 


Out[5]: 


-0.063033073531050018 


In [6]: 


std 


Out[6]: 


0.97226620529973573 


练习 : 概率 分 布 


用 shape 参 数 为 1 的 gamma 分 布 生 成 1000 个 随机 数 ， 然 后 绘制 那些 样本 的 直方 图 。 
你 可 以 在 顶部 绘制 pdf (应 该 会 匹配 ) 吗 ? 


额外 信息 : 这 些 分 布 都 有 一 些 有 用 的 方法 。 读 一 下 文档 字符 串 或 者 用 IPython tab 完 
成 来 研究 这 些 方法 。 你 可 以 用 在 你 的 随机 变量 上 使 用 fit 方法 来 找 回 shape 参 数 1 
吗 2 


1.5.6.2 百 分 位 数 


中 数 是 有 一 半 值 在 其 上 一 半 值 在 其 下 的 值 : 
In [7]: 


np.median(a) 
Out[7]: 


-0.061271835457024623 


中 数 也 被 称 为 百 分 位 数 50， 因 为 50% 的 观察 值 在 它 之 下 : 
In [8]: 


stats.scoreatpercentile(a, 50) 


Out[8]: 
-0.061271835457024623 
同样 ， 我 们 也 能 计算 百 分 位 数 90 : 
In [10]: 
stats.scoreatpercentile(a, 90) 
Out[10]: 


1.1746952490791494 


百 分 位 数 是 CDF 的 估计 值 : RROD, 


1.5.6.3 统计 检验 


统计 检验 是 一 个 决策 指示 器 。 例 如 ， 如 果 我 们 有 两 组 观察 值 ， 我 们 假设 他 们 来 自 于 
高 斯 过 程 ， 我 们 可 以 用 T 检 验 来 决定 这 两 组 观察 值 是 不 是 显著 不 同 : 


In [11]: 


a = np.random.normal(O, 1, size=100) 
b = np.random.normal(1, 1, size=10) 
stats.ttest ind(a, b) 


Out[11]: 


(-2.8365663431591557, 0.0054465620169369703) 


生成 的 结果 由 以 下 内 容 组 成 : 
e。 工 统计 值 : 一 个 值 ， 符 号 与 两 个 随机 过 程 的 差异 成 比例 ， 大 小 与 差异 的 程度 有 
Xo 
e pt: 两 个 过 程 相同 的 概率 。 如 果 它 接近 1， 那 么 这 两 个 过 程 几乎 肯定 是 相同 
的 。 越 接近 于 0， 越 可 能 这 两 个 过 程 有 不 同 的 平均 数 。 


1.5.7 插值 : scipy.interpolate 


scipy.interpolate 对 从 实验 数据 中 拟 合 男 数 是 非常 有 用 的 ， 因 此 ， 评 估 没 有 测量 过 的 
点 。 这 个 模块 是 基于 netlib 项 目的 Fortran 子 程序 FITPACK 


假想 一 个 接近 sine 函 数 的 实验 数据 : 
In [8]: 


measured time - np.linspace(0, 1, 10) 
noise - (np.random.random(10)*2 - 1) * 1e-1 
measures = np.sin(2 * np.pi * measured time) + noise 


scipy.interpolate.interp1d 类 可 以 建立 一 个 线性 插值 函数 : 
In [9]: 


from scipy.interpolate import interpid 
linear interp = interpid(measured time, measures) 


scipy.interpolate.linear interp 实例 需要 评估 感 兴趣 的 时 间 点 : 
In [10]: 


computed time = np.linspace(0, 1, 50) 
linear results - linear interp(computed time) 


通过 提供 可 选 的 参数 kind 也 可 以 选择 进行 立方 插值 : 


In [11]: 


cubic interp = interpid(measured time, measures, kind='cubic' ) 
cubic results - cubic interp(computed time) 


现在 结果 可 以 被 整合 为 下 面 的 Matplotlib 图 片 : 


e e measures 
— linear interp 
— cubic interp 
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scipy.interpolate.interp2d 与 scipy.interpolate.interp1d 类 似 ， 但 是 是 用 于 2-D 数 组 。 
注意 对 于 interp 家 族 ， 计 算 的 时 间 点 必须 在 测量 时 间 段 之 内 。 看 一 下 Sprogg 气 
象 站 的 最 大 风速 预测 的 总 结 练习 ， 了 解 更 详细 的 spline 插 值 实例 。 


1.5.8 数值 积分 : 


scipy.integrate.quad() 是 最 常见 的 积分 程序 : 
In [1]: 


from scipy.integrate import quad 
res, err - quad(np.sin, 0, np.pi/2) 
np.allclose(res, 1) 


Out[1]: 


True 


In [2]: 


np.allclose(err, 1 - res) 


Out[2]: 


True 


其 他 的 积分 程序 可 以 在 fixed quad 、 quadrature, romberg 中 找到 。 


scipy.integrate 可 提供 了 常 微分 公式 (ODE) 的 特色 程序 。 特 别 

的 ，scipy.integrate.odeint() 是 使 用 LSODA (Livermore Solver for Ordinary 
Differential equations with Automatic method switching for stiff and non-stiff 
problems) 的 通用 积分 器 ， 更 多 细节 请 见 ODEPACK Fortran 库 。 


odeint 解决 如 下 形式 的 第 一 顺序 ODE 系 统 : 
$dy/dt = rhs(y1, y2, .., t0,...)$ 


作为 一 个 介绍 ， 让 我 们 解 一 下 在 初始 条 件 下 $y(t=0) = 1$， 这 个 常 微分 公式 $dy/dt = 
-2y$ 在 $t = 0..4$ 时 的 值 。 首 先 ， 这 个 函数 计算 定义 位 置 需要 的 导数 : 


In [3]: 


def calc derivative(ypos, time, counter arr): 
counter arr += 1 
return -2 * ypos 


添加 了 一 个 额外 的 参数 counter arr 用 来 说 明 这 个 函数 可 以 在 一 个 时 间 步 又 被 调 
用 多 次 ， 直 到 收 伊 。 计 数 器 数组 定义 如 下 : 


In [4]: 


counter = np.zeros((1,), dtype-np.uinti6) 


现在 计算 轨迹 线 : 

In [5]: 
from scipy.integrate import odeint 
time vec - np.linspace(0, 4, 40) 


yvec, info - odeint(calc derivative, 1, time vec, 
args-(counter,), full output-True) 


Eb, SARUA 1402 (Elat ig 2 ge eK) 
In [6]: 


counter 
Out[6]: 
array([129], dtype=uinti6) 


前 十 个 时 间 步 骤 的 累积 循环 数 ， 可 以 用 如 下 方式 获得 : 
In [7]: 


info['nfe'][:10] 


Out[7]: 


array([31, 35, 43, 49, 53, 57, 59, 63, 65, 69], dtype-int32) 
注意 ， 求 解 器 对 于 首 个 时 间 步 又 需要 更 多 的 循环 。 导 数 答案 yvec 可 以 画 出 来 : 
1.0 
0.8 


0.6 


y position [m] 


0.2 


00 05 10 15 20 25 30 35 40 

Time [s] 
阻尼 漳 簧 重 物 振 子 (二 阶 振荡 器 ) 是 使 用 scipy.integrate.odeint() 的 另 一 个 例子 。 链 
接 到 弹 签 的 重 物 的 位 置 服从 二 阶 常 微分 方程 $y" + 2 eps wo y' + wo^2y = 0$， 其 中 
$wo^2 = k/m$ 弹 签 的 常数 为 k, m 是 重 物质 量 ，$eps=c/(2 m wo)$，c 是 阻尼 系数 。 
例如 ， 我 们 选择 如 下 参数 : 


In [8]: 


mass = 0.5 # kg 
kspring = 4 # N/m 
cviscous = 0.4 # N s/m 


因此 系统 料 是 欠 阻 尼 的 ， 因 为 : 
In [9]: 


eps - cviscous / (2 * mass * np.sqrt(kspring/mass)) 
eps « 1 


Out[9]: 


True 


对 于 scipy.integrate.odeint() 求 解 器 ， 二 阶 等 式 需 要 被 变换 为 系统 内 向 量 $Y=(y， 
y)$ 的 两 个 一 阶 等 式 。 为 了 方便 ， 定 义 $nu = 2 eps * wo = c/ m$ 和 $om = wo^2 = 
k/m$ : 


In [10]: 
nu coef - cviscous / mass 
om coef - kspring / mass 


ERE ER Bt i+ SRE ADORE : 
In [11]: 


def calc_deri(yvec, time, nuc, omc): 
return (yvec[1], -nuc * yvec[1] - omc * yvec[0]) 


time vec - np.linspace(0, 10, 100) 
yarr = odeint(calc deri, (1, 0), time vec, args-(nu coef, om coef) 


Aoo: | 


如 下 的 Matplotlib 图 片 显示 了 最 终 的 位 置 和 速度 : 


1.5 
1.0 
0.5 


0.0 





0 2 4 6 8 10 


在 Sicpy 中 没有 偏 微 分 方程 (PDE) 求解 器 。 存 在 其 他 求解 PDE 的 Python 包 ， 比 如 
fipy 或 SfePy。 


1.5.9 [& 5 4438 : scipy.signal 
In [13]: 


from scipy import signal 
import matplotlib.pyplot as pl 


e scipy.signal.detrend(): 从 信号 中 删除 线性 趋势 : 
In [14]: 


t 
X 


np.linspace(0, 5, 100) 
t + np.random.normal(size-100) 


pl.plot(t, x, linewidth-3) 
pl.plot(t, signal.detrend(x), linewidth=3) 


Out[14]: 


[<matplotlib.lines.Line2D at 0x10781e590>] 





1 2 3 = 


e scipy.signal.resample(): 用 FFT 从 信号 中 抽出 n 个 点 。 


In [15]: 
t - np.linspace(0, 5, 100) 
x = np.sin(t) 


pl.plot(t, x, linewidth-3) 
pl.plot(t[::2], signal.resample(x, 50), 'ko') 


Out[15]: 


[<matplotlib.lines.Line2D at 0x107855cd0>] 


1 2 3 4 


e scipy.signal 有 许多 窗口 函数 scipy.signal.hamming(), scipy.signal.bartlett(), 
scipy.signal.blackman()... 

e scipy.signal 有 滤 镜 (中 位 数 滤 镜 scipy.signal.medfilt()， 
Wienerscipy.signal.wiener()), 但 是 我 们 将 在 图 片 部 分 讨论 这 些 。 


1.5.10 图 像 处 理 : scipy.ndimage 


scipy# +F SEF BRR ENE Escipy.ndimage. 
In [18]: 


from scipy import ndimage 


图 像 处 理 程序 可 以 根据 他 们 进行 的 处 理 来 分 类 。 


1.5.10.1 图 像 的 几何 变换 


改变 原点 ， 解 析 度 ，.. 
In [19]: 


from scipy import misc 

import matplotlib.pyplot as pl 

lena - misc.lena() 

shifted lena - ndimage.shift(lena, (50, 50)) 

shifted lena2 = ndimage.shift(lena, (50, 50), mode='nearest') 
rotated lena ndimage.rotate(lena, 30) 

cropped lena lena[50:-50, 50:-50] 

zoomed lena - ndimage.zoom(lena, 2) 

zoomed lena.shape 


Out[19]: 


(1024, 1024) 





In [25]: 


subplot(151) 
pl.imshow(shifted lena, cmap-zcm.gray) 
axis('off') 


Out[25]: 


(-0.5, 511.5, 511.5, -0.5) 
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1.5.10.2 图 像 滤波 器 
In [26]: 


from scipy import misc 

lena - misc.lena() 

import numpy as np 

noisy lena - np.copy(lena).astype(np.float) 

noisy lena += lena.std()*0.5*np.random.standard normal(lena.shape) 
blurred lena - ndimage.gaussian filter(noisy lena, sigma-3) 

median lena - ndimage.median filter(blurred lena, size-5) 

from scipy import signal 

wiener lena - signal.wiener(blurred lena, (5,5)) 


ex 


noisy lena Gaussian filter median filter Wiener filter 
: Ww ri m 





Tam ndimage filters 和 scipy.signal 有 更 多 应 用 于 图 像 的 滤波 器 ， 
练习 
比较 不 同 过 滤 后 图 像 的 条 形 图 


1.5.10.3 数学 形态 学 
数学 形态 学 是 集合 理论 分 支出 来 的 一 个 数学 理论 。 它 刻画 并 转换 几何 结构 。 特 别 是 


二 元 的 图 像 (黑白 ) 可 以 用 这 种 理论 来 转换 : 被 转换 的 集合 是 临近 非 需 值 像素 的 集 
合 。 这 个 理论 也 可 以 被 扩展 到 灰 度 值 图 像 。 
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Erosion Dilation Opening Closing 


al jer. 


初级 数学 形态 学 操作 使 用 结构 化 的 元 素 ， 以 便 修 改 其 他 几何 结构 。 
首先 让 我 们 生成 一 个 结构 化 元 素 。 
In [27]: 





el - ndimage.generate binary structure(2, 1) 
el 


Out[27]: 


array([[False, True, False], 
[ True, True, True], 
[False, True, False]], dtype=bool) 


In [28]: 


el.astype(np.int) 


Out[28]: 
array([[0, 1, 9], 


[1, 1, 1], 
[0, 1, 0]]) 


e [A 


In [29]: 


a - np.zeros((7,7), dtypeznp.int) 
a[1:6, 2:5] = 1 
a 


Out[29]: 


SS dx. N & & 


0]]) 


MOM oM oM oM OM 


OMM oM oM oM OM 


OMM oM oM oM OM 


ww 上 


OMM oM OM OM 


SS Se Se Se Ss 


[0 
[0 
[0 
[0 
[0 


array([[0 


In [30]: 


ndimage.binary erosion(a).astype(a.dtype) 


Out[30]: 


MOM OM oM M OR 


MOM OM oM OM OR 


MOM OM oM M OR 


OMM oM oM OM N 


pM S 


OMM oM oM OM N 


array([[0 


In [31]: 


# 腐 蚀 移 除了 比 结构 小 的 对 象 


np.ones((5,5))).astype(a.dtype: 


structure 


ndimage.binary erosion(a, 


Out[31]: 


OMM oM oM OM 


0]]) 


MOM OM oM OM OR 


MOM OM oM OM OR 


MOM OM oM M OR 


OMM oM oM OM OR 


OMM oM OM N 


SS Se SS eS N 


e 扩张 
In [32]: 


a - np.zeros((5, 5)) 
ala- 2j s a 
a 


Out[32]: 


array([ 


eeees 
22200 
OOH oe 
22200 
©2200 


In [33]: 


ndimage.binary dilation(a).astype(a.dtype) 


Out[33]: 


array([ 


©2200 
seenhee 
epe 
eese 
eeeee 
UG QE cor 


I~ ~ ~ ~ 


] comer: Nel penas A aes M aes (cece | 


e FE 
In [34]: 


a = np.zeros((5,5), dtype=np.int) 
ale Ate A = i all A ea 


a 
Out[34]: 
array([[0, 0, 6, O, 0], 
[0, 1, 1, 1, 0], 
[0, 1, 1, 1, 0], 
[0, 1, 1, 1, 0], 
0, 0, 0 


[0, 


~ 
~ 


In [35]: 


H 开启 移 除 了 小 对 象 
ndimage.binary opening(a, structure-np.ones((3,3))).astype(np.int) 








‘| u— an] 
Out[35]: 
array([[0, 0, 0, 0, 0], 
[9, 1, 1, 1, 0], 
[9, 1, 1, 1, 0], 
[9, 1, 1, 1, 0], 
[0, ©, 6, 0, 0]]) 
In [36]: 


# 开启 也 可 以 平滑 拐角 
ndimage.binary_opening(a).astype(np.int) 


Out[36]: 
array([[0, 0, 0, 0, 0], 
[0, 0, 1, ©, 6], 

[o i ft EST 

[0, 0, 1, ©, 6], 

[0, ©, 9, ©, 0]]) 


e 闭合 : ndimage.binary closing 
练习 
验证 一 下 开启 相当 于 先 腐 包 再 扩张 。 
开启 操作 移 除 小 的 结构 ， 而 关闭 操作 填 满 了 小 洞 。 因 此 这 些 用 来 "清洗 “图 像 。 
In [37]: 
a = np.zeros((50, 50)) 
a[10:-10, 10:-10] = 1 
a += 0.25*np.random.standard normal(a.shape) 
mask = a>=0. 


opened_mask 
closed_mask 


ndimage.binary opening(mask) 
ndimage.binary closing(opened mask) 


Il | o1 


opened mask closed mask 


练习 


E 小 。 OIRA HIA REF BF AIN] 
Ah o 


MAKE IER, Be (区 别 于 扩张 ) 相当 于 用 感 兴趣 的 像素 周围 的 结构 元 素 中 的 
最 小 区别 于 最 大 ) 值 蔡 换 像素 。 


In [39]: 





a - np.zeros((7,7), dtypeznp.int) 
a[1:6，1:6] = 3 
a[4,4] = 2; a[2,3] = 1 


a 
Out[39]: 

array([[0, 0, 0, 0, 0, 0, 0], 
[9520 9003 0053009 oly 
(95 35520553 5939]; 
[0 Sp 335 Oly 
[9 aya Scar 2/03/09] 
(Riera 3 3053 lll, 
[0, 0, ©, ©, ©, ©, 0]]) 


In [40]: 


ndimage.grey_erosion(a, size=(3,3)) 


Out[40]: 


array([[60, O, 0, 0, 0, 0, 0], 
[0, 0, ©, 0, ©, ©, 0], 
[0, ©, 1, 1, 1, ©, 0], 
[0, ©, 1, 1, 1, 6, 6], 
[0, ©, 3, 2, 2, ©, 0], 
[0, ©, 0, 0, ©, 6, 6], 
[0, ©, ©, ©, ©, ©, 9]]) 


1.5.10.4 测量 图 像 
首先 让 我 们 生成 一 个 漂亮 的 人 造 二 维 图 。 
In [41]: 


X, y - np.indices((100, 100)) 
sig = np.sin(2*np.pi*x/50.)*np.sin(2*np.pi*y/50.)*(1+x*y/50.**2)**, 
mask = sig > 1 





现在 让 我 们 看 一 下 图 像 中 对 象 的 各 种 信息 : 
In [42]: 


labels, nb - ndimage.label(mask) 
nb 


Out[42]: 


In [43]: 


areas = ndimage.sum(mask, labels, xrange(1, labels.max()-*1)) 
areas 


Out[43]: 


array([ 190., 45., 424., 278., 459., 190., 549., 424.]) 


In [44]: 


maxima = ndimage.maximum(sig, labels, xrange(1, labels.max()-*1)) 
maxima 


Out[44]: 


array([  1.80238238, 1.13527605, 5.51954079, 2.49611818, 
6.71673619, 1.80238238, 16.76547217, 5.51954079]) 


In [45]: 


ndimage.find objects(labels--4) 


Out[45]: 


[(slice(30L, 48L, None), slice(30L, 48L, None))] 


In [46]: 


sl - ndimage.find objects(labels--4) 
import pylab as pl 
pl.imshow(sig[sl[0]]) 


Out[46]: 


<matplotlib.image.AxesImage at 0x10a861910> 





mask labels 
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1.5.11 科学 计算 的 总 结 练习 


总 结 练 习 主要 使 用 Numpy、Scipy 和 MEE 他 们 提供 了 一 些 使 用 Python 进行 
科学 计算 的 真实 例子 。 现 在 ， 已 经 介绍 了 Numpy 和 Scipy 的 基本 使 用 ， 邀 请 感 兴 趣 
的 用 户 去 做 这 些 练习 。 


练习 : 

1.5.11.13 Sprogg 气 象 站 的 最 大 风速 预测 

1.5.11.14 非 线 性 最 小 二 乘 曲线 拟 合 : 地 形 机 载 激光 雷达 数据 中 的 点 抽取 
1.5.11.15 EL ARAB SA: 计数 气泡 和 未 融化 的 颗粒 

提议 的 解决 方案 : 

1.5.11.16 图 像 处 理 练习 : 玻璃 中 的 未 融化 颗粒 的 答案 例子 


1.5.11.13 Sprogg 气 象 站 的 最 大 风速 预测 


这 个 练习 的 目的 是 预测 每 50 年 的 最 大 风速 ， 即 使 在 一 个 时 间 段 内 有 记录 。 可 用 的 数 
据 只 是 位 于 丹麦 的 Sprogg 气 象 站 的 21 年 的 测量 数据 。 首 先 ， 将 给 出 统计 步骤 ， 接 着 
将 用 scipy.interpolae 模 块 中 的 函数 来 解释 。 在 最 后 ， 将 洲 请 感 兴趣 的 读者 用 不 同 的 
方法 从 原始 数据 计算 结果 。 


1.5.11.13.1 统计 方法 


假设 年 度 最 大 值 符合 正 态 概率 密度 函数 。 但 是 ， 这 个 函数 不 能 用 来 预测 ， 因 为 它 从 
速度 最 大 值 中 给 出 了 概率 。 找 到 每 50 年 的 最 大 风速 需要 相反 的 方法 ， 需 要 从 确定 的 
概率 中 找到 结果 。 这 是 百 分 位 数 画 数 的 作用 而 这 个 练习 的 目的 是 找到 它 。 在 当前 的 
模型 中 ， 假 设 每 50 年 出 现 的 最 大 风速 定义 为 高 于 2% 百 分 位 数 。 

根据 定义 ， 百 分 位 数 函 数 是 累积 分 布 画 数 的 反 函 数 。 后 者 描述 了 年 度 最 大 值 的 概率 


分 布 。 在 这 个 练习 中 ， 给 定年 份 $i$ 的 累积 概率 $p_i$ 被 定义 为 $p_i= i/(N+1)$， 其 中 
$N = 21$， 测 量 的 年 数 。 因 此 ， 计 算 每 个 测量 过 的 风速 最 大 值 的 累积 概率 是 可 以 行 


By, MZE kI, scipyinterpolatef k RES do E 2 LACER AGES 3 FH. mia, 
50 年 的 最 大 值 将 从 累积 概率 的 2% 百 分 位 数 中 预 估 出 来 。 


1.5.11.13.2 计算 累积 概率 


计算 好 的 numpy 格 式 的 年 度 风 速 最 大 值 存储 在 examples/max-speeds.npy 文 件 中 ， 
因此 ， 可 以 用 numpy 加 载 : 
In [4]: 

import numpy as np 


max speeds - np.load('data/max-speeds.npy') 
years nb = max speeds.shape[0] 


FB ze BUT GAB SRARBEIXEXESL$p i$, xt dB RE : 
In [5]: 


cprob = (np.arange(years nb, dtype-np.float32) + 1)/(years nb + 1) 
e — —M————— 天"| 
并 且 假设 他 们 可 以 拟 合 给 定 的 风速 : 

In [6]: 


sorted max speeds = np.sort(max speeds) 


1.5.11.13.3 HiUnivariateSpline fi 3) 


TEX MBO, BOMARZO Univariatespline 类 来 估计 ， 这 个 类 用 点 代表 

样 条 。 默认 行为 是 构建 一 个 3 度 的 样 条 ， 不 同 的 点 根据 他 们 的 可 靠 性 可 能 有 不 同 的 
权重 。 相 关 的 变 体 还 

有 InterpolatedUnivariateSpline 和 LSQUnivariateSpline ， 差 别 在 于 检查 
误差 的 方式 不 同 。 如 果 需 要 2D 样 条 ， 可 以 使 用 Bivariatespline 家 族 类 。 所 有 这 
些 1D 和 2D 样 条 使 用 FITPACK Fortran 程序 ， 这 就 是 为 什么 通 

过 splrep 和 splev 画 数 来 表征 和 评估 样 条 的 库 更 少 。 同 时 ， 不 使 用 FITPACK 参 
数 的 插值 画 数 也 提供 更 简便 的 用 法 ( 见 interpid , interp2d , 

barycentric interpolate 等 等 ) 。 对 于 Sprogg 最 大 风速 的 例子 ， 将 使 

用 UnivariateSpline ， 因 为 3 度 的 样 条 似乎 可 以 正确 拟 合 数据 : 


In [7]: 


from scipy.interpolate import UnivariateSpline 
quantile func - UnivariateSpline(cprob, sorted max speeds) 


Bata Bayt FB E Re Ase ES] BECAS : 
In [8]: 


nprob - np.linspace(0, 1, 1e2) 
fitted max speeds - quantile func(nprob) 


在 当前 的 模型 中 ， 每 50 年 出 现 的 最 大 风速 被 定义 为 大 于 2% 百 分 位 数 。 作 为 结果 ， 
累积 概率 值 将 是 : 
In [9]: 
fifty prob = 1. - 0.02 
因此 ， 可 以 猜测 50 年 一 遇 的 暴风 雪 风 速 为 : 
In [10]: 


fifty wind = quantile func(fifty prob) 
fifty wind 


Out[10]: 


array(32.97989825386221) 


现在 ， 结 果 被 收集 在 Matplotlib 图 片 中 : 
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Annual wind speed maxima [m/s] 


答案 : Python 源 文件 


1.5.11.13.4 Gumbell 分 布 练习 


现在 邀请 感 兴趣 的 读者 用 21 年 测量 的 风速 做 一 个 练习 。 测 量 区 闻 为 90 分 钟 〈 原 始 的 
区 间 约 为 10 分 钟 ， 但 是 ， 为 了 让 练习 的 设置 简单 一 些 ， 缩 小 了 文件 的 大 小 ) o BE 
以 numpy 格 式 存储 在 文件 examples/sprog-windspeeds.npy 中 。 在 完成 练习 后 ， 不 
要 看 绘图 的 源 代码 。 


e 第 一 步 将 是 通过 使 用 numpy 来 找到 年 度 最 大 值 ， 然 后 将 它们 绘制 为 matplotlibe 
条 形 图 。 
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Annual wind speed maxima [m/s] 





Year 


答案 : Python 源 文 件 


e 第 二 步 将 是 在 累积 概率 $p_ 证 使 用 Gumbell 分 布 ，$p_ 证 的 定义 是 $-log( -log(p. i) 
JS FH do ASIE ER DEALERS 〈 记 住 你 可 以 定义 UnivariateSpline 的 度数 ) 。 
绘制 年 度 最 大 值 科 Gumbell 分 布 籽 生产 如 下 图 片 。 
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Gumbell cumulative probability 


Vso =34.23 m/s 


v 





-20 25 30 35 40 45 
Annual wind speed maxima [m/s] 


Dy 


案 : Python 源 文件 
e 最 后 一 步 将 是 找到 在 每 50 年 出 现 的 最 大 风速 34.23 m/s, 


1.5.11.14 非 线性 最 小 二 乘 曲线 拟 合 : 地 理 雷 达 数 据 中 的 点 抽取 应 


d 


这 个 一 些 数 据 。 这 篇 教程 中 的 数据 是 雷达 数据 ， 下 面 的 
介绍 段落 将 详细 介绍 。 如 果 你 没有 耐心 ， 想 要 马上 进行 联系 ， 那 么 请 跳 过 这 部 分 ， 
并 直接 进 入 加 载 和 可 视 化 


1.5.11.14.1 介绍 


雷达 系统 是 光学 测 距 仪 ， 通 过 分 析 离 散光 的 属性 来 测量 距离 。 绝 大 多 数 光学 测 距 仪 
向 目标 发 射 一 段 短 光学 脉冲 ， 然 后 记录 反射 信号 。 然 后 处 理 这 个 信号 来 抽取 雷达 系 
统 与 目标 间 的 距离 。 


地 形 雷 达 系统 是 戏 入 在 飞行 平台 的 雷达 系统 。 它 们 测量 平台 与 地 球 的 距离 ， 以 便 计 
算出 地 球 的 地 形 信息 (更 多 细节 见 [1]) 。 


[1] Mallet, C. and Bretar, F. Full-Waveform Topographic Lidar: State-of-the-Art. 
ISPRS Journal of Photogrammetry and Remote Sensing 64(1), pp.1-16, January 
2009 http://dx.doi.org/10.1016/j.isprsjprs.2008.09.007 


这 篇 教程 的 目的 是 分 析 雷 达 系 统 记 录 到 的 波形 数据 [2]。 这 种 信号 包含 波峰 ， 波 峰 的 
中 心 和 振幅 可 以 用 来 计算 命中 目标 的 位 置 和 一 些 特性 。 当 激光 柱 的 脚步 距离 地 球 表 
面 1m 左 右 ， 光 柱 可 以 在 二 次 传播 时 击 中 多 个 目标 例如， 地面 和 树木 或 建筑 的 顶 
部 ) 。 激 光 柱 的 击 中 每 个 目标 的 贡献 之 和 会 产生 一 个 有 多 个 波峰 的 复 厅 波 ， 每 一 个 
包含 一 个 目标 的 信息 。 

一 种 从 这 些 数据 中 抽取 信息 的 先进 方法 是 在 一 个 高 斯 本 数 和 中 分 解 这 些 信 息 ， 每 个 
画 数 代 表 激 光 柱 击 中 的 一 个 目标 的 贡献 。 

因此 ， 我 们 使 用 the scipy.optimize 模块 将 波形 拟 合 为 一 个 高 斯 本 数 或 高 斯 本 
数 之 和 。 


1.5.11.14.2 加 载 和 可 视 化 
加 载 第 一 个 波形 : 
In [1]: 


import numpy as np 
waveform 1 - np.load('data/waveform 1.npy') 


接着 可 视 化 : 
In [2]: 


import matplotlib.pyplot as plt 
t - np.arange(len(waveform 1)) 
plt.plot(t, waveform 1) 
plt.show() 











1 1 1 1 1 1 
10 20 30 40 50 60 


你 可 以 注意 到 ， 这 个 波形 是 单 峰 80 个 区 间 的 信息 。 


1.5.11.14.3 用 简单 的 高 斯 模型 拟 合 波形 


这 个 信号 非常 简单 ， Bo BEEN SSW, SOBIBUSBEUEENEE. BWR 
拟 合 这 个 信号 ， 我 们 必须 


e 定义 一 个 模型 
e 给 出 初始 解 
e 调用 scipy.optimize.leastsq 


1.5.11.14.3.1 模型 

高 斯 函数 定义 如 下 : 

$B + A \exp\left{-\left(\frac{t-\mu}{\sigma}right)*2\right}$ 
在 Python 中 定义 如 下 : 

In [3]: 


def model(t, coeffs): 
return coeffs[0] + coeffs[1] * np.exp( - ((t-coeffs[2])/coeffs| 





coeffs[0] is $B$ (noise) 
coeffs[1] is $A$ (amplitude) 
coeffs[2] is $mu$ (center) 
coeffs[3] is $\sigma$ (width) 


1.5.11.14.3.2 初始 解 
过 观察 图 形 ， 我 们 可 以 找到 大 概 的 初始 解 ， 例 如 : 
In [5]: 


x0 = np.array([3, 30, 15, 1], dtype-float) 


1.5.11.14.3.3 拟 合 


scipy.optimize.leastsq 最 小 化 作为 参数 给 到 的 函数 的 平方 和 和 。 本 质 上 来 说 ， 
函数 最 小 化 的 是 残 差 (数据 与 模型 的 差异 ) : 


In [6]: 


def residuals(coeffs, y, t): 
return y - model(t, coeffs) 


因此 ， 让 我 们 通过 下 列 参 数 调用 scipy.optimize.leastsq 来 求解 : 


e. 最 小 化 的 函数 


e 初始 解 
e 传递 给 范 数 的 额外 参数 
In [7]: 


from scipy.optimize import leastsq 
x, flag = leastsq(residuals, x0, args-(waveform 1, t)) 
print x 


[ 2.70363341 27.82020741 15.47924562 3.05636228] 


答案 可 视 化 : 


In [8]: 


plt.plot(t, waveform 1, t, model(t, x)) 
plt.legend(['waveform', 'model']) 
plt.show() 











备注 : Mscipy v0.8 及 以 上 ， 你 应 该 使 用 scipy.optimize.curve fit ， 它 使 用 模 
型 和 数据 作为 参数 ， 因 此 ， 你 不 再 需要 定义 残 差 。 


1.5.11.14.4 更 进一步 


。 试 一 下 包含 三 个 波峰 的 更 复杂 波形 (例如 data/waveform_2.npy) 。 你 必须 调 
整 模型 ， 现 在 它 是 高 斯 事 数 之 和 ， 而 不 是 只 有 一 个 高 斯 波峰 。 
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e 在 一 些 情 况 下 ， 写 一 个 函数 来 计算 Jacobian， 要 比 让 leastsq 从 数值 上 估计 它 来 
的 快 。 创 建 一 个 函数 来 计算 残 差 的 Jacobian， 并 且 用 它 作 为 leastsq 的 一 个 输 
人 。 
e 当 我 们 想 要 识别 信号 中 非常 小 的 峰值 ， 或 者 初始 的 猜测 离 好 的 解决 方案 太 远 
时 ， 算 法 给 出 的 结果 往往 不 能 令 人 满意 。 为 模型 参数 添加 限制 可 以 确保 克服 这 
些 局 限 性 。 我 们 可 以 添加 的 先前 经 验 是 变量 的 符号 (都 是 正 的 ) 。 
用 下 列 初始 解 : 
In [9]: 


x0 = np.array([3, 50, 20, 1], dtype-float) 


添加 了 边界 限制 之 后 比较 一 
下 scipy.optimize.leastsq 与 scipy.optimize.fmin slsqp 的 结果 。 


[2] 本 教程 的 数据 部 分 来 自 于 FullAnalyze software 的 演示 数据 ， 由 GIS DRAIX 友情 
E {+t 


是 供 。 


1.5.11.15 图 像 处 理应 用 : 计数 气泡 和 未 融化 的 颗粒 
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Det | Spot| Mag 


MV 15-05-2009 1280°C 


1.5.11.15.1 问题 描述 


1. 


打开 图 像 文 件 MV_HFV_012.jpg 并 且 浏 览 一 下 。 看 一 下 imshow 文 档 字 符 串 中 的 
用 “ 右 ” 对 齐 来 显示 图 片 ( 原 点 在 左下 角 ， 而 不 是 像 标 准 数组 在 右上 


这 个 扫描 元 素 显 微 图 显示 了 一 个 带 有 一 些 气泡 (黑色 ) 和 未 溶解 沙 〈 深 灰 ) 的 
玻璃 样本 (AKEE) 。 我 们 想 要 判断 样本 由 三 个 状态 覆盖 的 百分比 ， 并 且 预 
测 沙 粒 和 气泡 的 典型 大 小 和 他 们 的 大 小 等 。 


. 修建 图 片 ， 删 除 带 有 测量 信息 中 底部 面板 。 
. 用 中 位 数 过 滤 稍 稍 过 滤 一 下 图 像 以 便 改 进 它 的 直方 图 。 看 一 下 直方 图 的 变化 。 
.使 用 过 滤 后 图 像 的 直方 图 ， 决 定 人 允许 定义 沙 粒 像素 ， 玻 璃 像素 和 气泡 像素 掩 项 


的 六 限 。 其 他 的 选项 (REFL) : 写 一 个 了 落 数 从 直方 图 的 最 小 值 自动 判断 冰 
限 。 


5. 将 三 种 不 同 的 相 用 不 同 的 颜色 上 人 色 并 显示 图 片 。 


4 
l. 
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6. 用 数学 形态 学 清理 不 同 的 相 。 


7. 为 所 有 气泡 和 沙 粒 做 标签 ， 从 沙 粒 中 删除 小 于 10 像 素 的 掩 殴 。 要 这 样 做 ， 
用 ndimage.sum 或 np.bincount 来 计算 沙 粒 大 小 。 


8. 计算 气泡 的 平均 大 小 。 
1.5.11.16 图 像 处 理 练习 : 玻璃 中 的 未 融化 颗粒 的 答案 例子 
In [1]: 


import numpy as np 
import pylab as pl 
from scipy import ndimage 


Det | Spot| Mag 





10.4 EARS MESTSIPISA | 41x |3.25 mm MV 15-05-2009 1280°C 


e 打开 图 像 文 件 MV_HFV_012.jpg 并 且 浏 览 一 下 。 看 一 下 imshow 文 档 字 符 串 中 的 
es 用 “ 右 ” 对 齐 来 显示 图 片 ( 原 点 在 左下 角 ， 而 不 是 像 标 准 数组 在 右上 
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Cn 


In [3]: 


dat - pl.imread('data/MV HFV 012.jpg') 


e 修建 图 片 ， 删 除 带 有 测量 信息 中 底部 面板 。 
In [4]: 


dat = dat[60:] 


e. 用 中 位 数 过 滤 稍 稍 过 滤 一 下 图 像 以 便 改进 它 的 直 方 图 。 看 一 FER 直方 图 的 变化 。 
In [5]: 


filtdat = ndimage.median_filter(dat, size=(7,7)) 
hi dat = np.histogram(dat, bins-np.arange(256)) 
hi filtdat = np.histogram(filtdat, bins=np.arange(256) ) 
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e 使 用 过 滤 后 图 像 的 直方 图 ， 决 定 允 许 定义 沙 粒 像素 ， 玻 璃 像素 和 气泡 像素 掩 殴 
的 冰 限 。 其 他 的 选项 《家庭 作 业 ) : 写 一 个 函数 从 直方 图 的 最 小 值 自动 判断 阔 
限 。 
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In [6]: 
void - filtdat «- 50 
sand - np.logical and(filtdat » 50, filtdat «- 114) 


glass - filtdat » 114 


e. 将 三 种 不 同 的 相 用 不 同 的 颜色 上 色 并 显示 图 片 。 
In [7]: 


phases = void.astype(np.int) + 2*glass.astype(np.int) + 3*sand.ast: 


EE m Be 








e 用 数学 形态 学 清理 不 同 的 相 。 
In [8]: 


sand op = ndimage.binary opening(sand, iterations-2) 


e X BUB TWA Ate ER, MDAC IBRD FIORE BK, 
FA ndimage.sum 或 np.bincount 来 计算 沙 粒 大 小 。 





1.5 Scipy : 高 级 科学 计算 217 


In [9]: 


sand labels, sand nb - ndimage.label(sand op) 

sand areas - np.array(ndimage.sum(sand op, sand labels, np.arange(: 
mask = sand areas > 100 

remove small sand - mask[sand labels.ravel()].reshape(sand labels.: 








e. 计算 气泡 的 平均 大 小 。 

In [10]: 
bubbles labels, bubbles nb = ndimage.label(void) 
bubbles areas - np.bincount(bubbles labels.ravel())[1:] 
mean bubble size - bubbles areas.mean() 


median bubble size - np.median(bubbles areas) 
mean bubble size, median bubble size 


Out[10]: 


(2416.863157894737, 60.0) 


1.6 获取 帮助 及 寻找 文档 


与 了 解 Numpy 和 Scipyzhong 的 所 有 函数 相 比 ， 通 过 文档 和 可 用 帮助 快捷 的 找到 信息 
更 重要 。 这 里 是 获得 让 息 的 一 些 方式 


e 在 lpython 中 ， help 方法 打开 函数 的 文档 字符 串 。 只 需要 输入 函数 名 的 起 始 
字母 ， 使 用 tab 完 成 来 显示 匹配 到 的 函数 。 


In [204]: help np.v 
np.vander np.vdot np.version np.voido np.vstack 
np.var np.vectorize np.void np.vsplit 


In [204]: help np.vander 
了 = s] 


在 lpython 中 无 法 为 帮助 和 问答 打开 一 个 独立 的 窗口 ; 但 是 ， 可 以 打开 另 一 个 
Ipython shell 久 显示 帮助 和 文档 字符 串 .… 


e Numpy 和 Scipy 的 文档 可 以 在 线 查 看 http://docs.scipy.org/doc 。 两 个 包 的 参考 
文档 (http://docs.scipy.org/doc/numpy/reference/ 和 
http://docs.scipy.org/doc/scipy/reference/) 中 的 搜索 按钮 非常 有 用 。 中 的 搜索 按 
钮 非常 有 用 。) 


在 这 个 网 站 上 也 可 以 找到 不 同 主题 的 教程 以 及 所 有 字符 串 文 档 的 完整 API。 
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o Basic functions in Numpy (and top-level scipy) 
Table Of Contents o Special functions (scipy. special) 
SciPy o Integration (scipy. integrate) 
Reference o Optimization (optimize) 
Next topic o nterpolation (scipy. interpolate) 
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TABUJESUGE o File IO (scipy.io) 
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e Release Notes 








Scipy.org website 


Edie page Reference 
Quick search e Clustering package (scipy. cluster) 
* Constants (scipy. constants) 
e Fourier transforms (scipy. fftpack) 
Go * Integration and ODEs (scipy. integrate) 
Enter search terms or a module, e Interpolation (scipy. interpolate) 
class or function name. * Input and output (scipy. io) 
e Linear algebra (scipy. linalg) 
e Maximum entropy models (scipy. maxentropy) 
e Miscellaneous routines (scipy. misc) $ 
其 Find: | help | <Previous 请 Next Highlightall | |Matchcase [3| Reached end of page, continued from top 


e Numpy 和 Scipy 的 文档 由 用 户 在 wiki http://docs.scipy.org/numpy/ (链接 已 经 失 
效 ) 上 定期 丰富 和 和 更新。 因此， 一 些 字 符 串 文档 在 wiki 上 更 清晰 想 尽 ， 你 可 能 


更 想 在 wiki 上 读 取 文档 而 不 是 在 官方 文档 网 站 上 。 注 意 任 何人 都 可 以 在 wiki 上 创 
Te aaa ; 这 是 为 开源 项 目 做 贡献 以 及 改善 你 所 使 用 的 工具 
的 简单 方式 ! 


Scipy documentation editor » Back to Numpy/Scipy documentation » Numpy documentation editor » scipy.org editor 


Wiki Docstrings Changes Milestones Search Stats Patch — Login 


scipy.ndimage.morphology.binary dilation 


View Log DifftoSVN Discussion Source Review status: Being written 
SciPy » Multi-dimensional image processing (:mod: scipy.ndimage ) » 
binary dilation(input, structure=None, iterations=1, mask-None, output=None, border value-0, origin=0, 
brute force—False) 
Multi-dimensional binary dilation with the given structuring element. 





Parameters 


input : array like 
Binary array like to be dilated. Non-zero (True) elements form the subset to be dilated. 
structure : array like, optional 
Structuring element used for the dilation. Non-zero elements are considered True. If no structuring element is 
provided an element is generated with a square connectivity equal to one. 
iterations : (int, float), optional 
The dilation is repeated iterations times (one, by default). If iterations is less than 1, the dilation is repeated until 
the result does not change anymore. 
mask : array like, optional 
If a mask is given, only those elements with a True value at the corresponding mask element are modified at 
each iteration. 
output : ndarray, optional 
Array of the same shape as input, into which the output is placed. By default, a new array is created. 
origin : int or tuple of ints, optional 
Placement of the filter, by default 0. 
border value : int (cast to 0 or 1) 
Value at the border in the output array. 


Returns 


out : ndarray of bools 
Dilation of the input by the structuring element. 


See Also " 


$* Find: | help | @bPrevious c» Next Highlight all | | Match case 由 Reached end of page, continued from top 


e ScipyB') cookbook http://www.scipy.org/Cookbook 给 出 了 许多 常见 问题 的 做 
法 ， 上 比如 拟 合 数据 点 ， 求 解 ODE 等 。 


e Matplotlib 网 站 http://matplotlib.sourceforge.net/ 以 一 个 拥有 大 量 图表 的 非常 漂 
亮 的 画廊 为 特色 ， 每 个 图 表 都 显示 了 源 代码 及 生成 的 图 表 。 这 对 于 通过 例子 来 
学 习 非 常 有 帮助 。 在 网 站 上 也 可 以 找到 更 多 的 标准 文档 。 


& matplotlib | 


home| search | examples | gallery | docs > modules | index 
Click on any image to see full size image and source code | 
TIP vs KA E mi = 
Z "ESAE! — Enter search terms or a module, 
: m | class or function name. 





i, AA BE] ^t 
ar 2 a } 。 íl 
mm oum oum i | ^. &matplotlib 


some other " ， 一 = ee, == 
| A 


Teil 


Mayavi 网 站 
http://code.enthought.com/projects/mayavi/docs/development/html/mayavi/ 也 
有 非常 漂亮 的 例子 画 原 
http://code.enthought.com/projects/mayavi/docs/development/html/mayavi/au 


to/examples.html ， 人 们 可 以 查看 不 同 的 可 视 化 方案 。 


最 后 


In 
In 
np 
np 
np 


， 两 个 更 加 "技术 "可 能 性 也 非常 有 用 : 


fElpython}, BARR %psearch 搜索 匹配 模式 的 对 象 。 例 如 ， 如 果 不 知道 
函数 的 准确 名 称 ， 这 将 非常 有 用 。 


[3]: import numpy as np 
[4]: %psearch np.diag* 
.diag 

.diagflat 

.diagonal 


numpy.lookfor 查找 指定 模块 文档 字符 串 中 的 关键 字 。 


In [45]: numpy.lookfor('convolution') 
Search results for 'convolution' 
numpy.convolve 

Returns the discrete, linear convolution of two one-dimensiona: 
sequences. 
numpy.bartlett 

Return the Bartlett window. 
numpy.correlate 

Discrete, linear correlation of two 1-dimensional sequences. 
In [46]: numpy.lookfor('remove', module-'os') 
Search results for 'remove' 
os.remove 

remove(path) 
os.removedirs 

removedirs(path) 
os.rmdir 

rmdir (path) 
os.unlink 

unlink(path) 
os.walk 

Directory tree generator. 





e 如 果 上 面 列 出 的 所 有 方法 都 失败 了 (并 且 Google 也 没有 答案 ) … 不 要 绝望 ! 你 
的 问题 适合 向 邮件 组 写 一 封 邮 件 : 如 果 你 很 好 的 描述 了 你 的 问题 ， 那 么 你 应 该 
会 很 快 得 到 答案 。Python 科 学 计算 的 专家 通过 在 邮件 组 给 出 非常 有 启发 性 的 解 
释 。 

o Numpy 讨 论 ([email protected]) : 全 部 是 关于 Numpy 数 组 ， 操 作 数 据 ， 素 
引 等 问题 。 

o SciPy 用 户 列表 ([email protected]) : 用 Python 进行 科学 计算 ， 高 级 数据 
处 理 ， 特 别 是 scipy 包 的 使 用 。 

o [email protected] 用 matplotlib 绘 图 。 


In [1]: 


%matplotlib inline 


2.1 Python 高 级 功能 (Constructs) 


作者 : Zbigniew Jedrzejewski-Szmek 


这 一 章 是 关于 Python 语言 的 高 级 特性 -从 不 是 每 种 语言 都 有 这 些 特 性 的 角度 来 说 ， 
也 可 以 从 他 们 在 更 复杂 的 程序 和 库 中 更 有 用 这 个 角度 来 说 ， 但 是 ， 并 不 是 说 特别 专 
业 或 特别 复杂 。 


需要 强调 的 是 本 章 是 纯粹 关于 语言 本 身 - 关 于 由 特殊 语法 支持 的 特性 ， 用 于 补充 
Python 标准 库 的 功能 ， 陪 明 的 外 部 模块 不 会 实现 这 部 分 特性 。 


开发 Python 程序 语言 的 流程 、 语 法 是 惟一 的 因为 非常 透明 ， 提 议 的 修改 会 在 公共 邮 
件 列 表 中 从 多 种 角度 去 评估 ， 最 终 的 决策 是 来 自 于 想象 中 的 用 例 的 重要 性 、 带 来 更 
多 语言 特性 所 产生 的 负担 、 与 其 他 语法 的 一 致 性 及 提议 的 变化 是 否 易于 读 宇 和 理解 
的 权衡 。 这 个 流程 被 定型 在 Python 增强 建议 中 -PEPs。 因 此 ， 本 章 中 的 特性 都 是 在 
显示 出 确实 解决 了 现实 问题 ， 并 且 他 们 的 使 用 尽 可 能 简洁 后 才 被 添加 的 。 


2.1.1 迭代 器 、 生 成 器 表达 式 和 生成 器 


2.1.1.1 3x N88 


简洁 
重复 的 工作 是 浪费 ， 用 一 个 标准 的 特性 蔡 代 不 同 的 自 产 方 法 通常 使 事物 的 可 读 性 和 
共用 性 更 好 。 Guido van Rossum 一 为 Python 添加 可 选 的 静态 输入 


迭代 器 是 继承 了 和 迭 代 协 议 的 对 象 -本 质 上 ， 这 意味 着 它 有 一 个 next 方 法 ， 调 用 时 会 返 
回 序列 中 的 下 一 个 项 目 ， 当 没有 未 西 可 返回 时 ， 抛 出 Stoplteration 异 常 。 

迭代 器 对 象 只 允许 循环 一 次 。 它 保留 了 单 次 迭代 中 的 状态 (位置 ) ， 或 者 从 另外 的 
角度 来 看 ， 序 列 上 的 每 次 循环 需要 一 个 迭代 器 对 象 。 这 意味 着 我 们 可 以 在 一 个 序列 
上 同时 循环 多 次 。 从 序列 上 分 离 出 循环 逻辑 使 我 们 可 以 有 不 止 一 种 方法 去 循环 。 

在 容器 上 调用 iter 方 法 来 创建 一 个 迭代 器 对 象 是 获得 迭代 器 的 最 简单 方式 。iter 男 数 
帮 有 我 们 完成 这 项 工作 ， 节 省 了 一 些 按键 次 数 。 


In [12]: 
nums = [1,2,3] # 注意 ... Ble: 这些 是 不 同 的 对 象 
iter(nums) 

Out[12]: 


<listiterator at 0x105f8b490> 


In [2]: 


nums. iter () 


Out[2]: 


<listiterator at 0x105bd9bd0> 


In [3]: 


nums. reversed () 


Out[3]: 


<listreverseiterator at 0x105bd9c50> 


In [4]: 


it = iter(nums) 
next (it) # next(obj) 是 obj ,next( ) 的 简便 用 法 


Out[4]: 


In [5]: 


it.next() 


Out[5]: 


In [6]: 


next(it) 


Out[6]: 


In [7]: 


next(it) 


StopIteration Traceback (most recent c: 
<ipython-input-7-2cdb14c0d4d6> in «module»() 
----> 1 next(it) 


StopIteration: 
po LLL - 


在 一 个 循环 上 使 用 时 ，Sitoplteration 被 忍受 了 ， 使 循环 终止 。 但 是 ， 当 显 式 调用 
时 ， 我 们 可 以 看 到 一 旦 迭代 器 结束 ， 再 访问 它 会 抛 出 异常 。 


使 用 for..in 循环 也 使 用 — iter — 方法。 这 个 方法 允许 我 们 在 序列 上 旺 式 的 开始 一 
个 循环 。 但 是 ， 如 果 我 们 已 经 有 个 迭代 器 ， 我 们 想 要 可 以 在 一 个 循环 中 以 同样 的 方 
式 使 用 它 。 要 做 到 这 一 点 ， 和 迭代 器 及 next 也 需要 有 一 个 称 为 ”iter 的 方法 
返回 迭代 器 ( self )。 


Python 中 对 迭代 器 的 支持 是 普通 的 : 标准 库 中 的 所 有 的 序列 和 无 序 容器 都 支持 迭代 
器 。 这 个 概念 也 被 扩展 到 其 他 的 事情 : 例如 文件 对 象 支 持 按 行 循环 。 


In [10]: 





f = open('./etc/fstab') 
f is f. iter () 


Out[10]: 
True 


文件 是 迭代 器 本 身 ， 它 的 iter 方法 并 不 创建 一 个 新 的 对 象 : 仅 人 允许 一 个 单 
一 线程 的 序列 访问 。 


2.1.1.2 生成 器 表达 式 


创建 迭代 器 对 象 的 第 二 种 方式 是 通过 生成 器 表达 式 ， 这 也 是 列表 推导 的 基础 。 要 增 
加 明确 性 ， 生 成 器 表达 式 通常 必须 被 括号 或 表达 式 包 围 。 如 果 使 用 圆 括 号 ， 那 么 创 
建 了 一 个 生成 器 迭代 器 。 如 果 使 用 方 括号 ， 那 么 过 程 被 缩短 了 ， 我 们 得 到 了 一 个 列 
X. 


In [13]: 

(i for i in nums) 
Out[13]: 

«generator object «genexpr» at 0x105fbc320> 
In [14]: 

[i for i in nums] 
Out[14]: 

[1, 2, 3] 
In [15]: 

list(i for i in nums) 
Out[15]: 


[1, 2, 3] 


在 Python 2.7 和 3.x 中 ， 列 表 推导 语法 被 扩展 为 字典 和 集合 推导 。 当 生成 器 表达 式 被 
大 括号 包围 时 创建 一 个 集合 。 当 生成 器 表达 式 包含 一 对 键 : 值 的 形式 时 创 
建 字典 : 


In [16]: 
{i for i in range(3)} 
Out[16]: 


{0, 1, 2} 


In [17]: 


(i:i**2 for i in range(3)) 


Out[17]: 

QOO NEIN 
如 果 你 还 在 前 面 一 些 Python 版 本 ， 那 么 语法 只 是 有 一 点 不 同 : 
In [18]: 


set(i for i in 'abc') 
Out[18]: 

qoa oy SGI 
In [19]: 


dict((i, ord(i)) for i in 'abc') 


Out[19]: 


{'a': 97, 'b': 98, 'c': 99} 


生成 器 表达 式 非 常 简单 ， 在 这 里 没有 什么 多 说 的 。 只 有 一 个 疑难 问题 需要 提 及 : 在 
日 的 Python 中 ， 索 引 变量 (i) 可 以 泄漏 ， 在 >=3 以 上 的 版 本 ， 这 个 问题 被 修正 了 。 


2.1.1.3 生成 器 


生成 器 
生成 器 是 一 个 可 以 产生 一 个 结果 序列 而 不 是 单一 值 的 豆 数 。 
David Beazley 一 协 程 和 并 发 的 有 趣 课程 


创建 迭代 器 对 应 的 第 三 种 方法 是 调用 生成 器 范 数 。 生 成 器 是 包含 关键 字 yield 的 孙 

数 。 必 须 注意 ， 只 要 这 个 关键 词 出 现 就 会 彻底 改变 函数 的 本 质 : 这 个 yield 关键 
字 并 不 是 必须 激活 或 者 甚至 可 到 达 ， 但 是 ， 会 造成 这 个 函数 被 标记 为 一 个 生成 器 。 
当 普 通 函 数 被 调用 时 ， 画 数 体 内 包含 的 指令 束 开始 执行 。 当 一 个 生成 器 被 调用 时 ， 

在 函数 体 的 第 一 条 命令 前 停止 执行 。 调 用 那个 生成 器 函数 创建 一 个 生成 器 对 象 ， 继 
承 旬 代 器 协议 。 和 与 调用 普通 画 数 一 样 ， 生 成 器 也 允许 并 发 和 递归 。 


“4 next WAA, BSEUASSUS—^ yield 。 每 一 次 遇 到 yield 语句 都 会 给 
出 next 的 一 个 返回 值 。 执 行 完 yield 语 句 ， 就 暂停 回 数 的 执行 。 


In [20]: 


def f(): 
yield 1 
yield 2 

f() 


Out[20]: 


«generator object f at 0x105fbc460> 


In [21]: 


gen - f() 
gen.next() 


Out[21]: 


In [22]: 


gen.next() 


Out[22]: 


In [23]: 


gen.next() 


StopIteration Traceback (most recent c: 
«ipython-input-23-b2c61ce5e131» in <module>() 
----> 1 gen.next() 


StopIteration: 


«| m 








让 我 们 进入 一 次 调用 生成 器 函数 的 生命 周期 。 
In [24]: 


def f(): 
print("-- start --") 
yield 3 
print("-- middle --") 
yield 4 
print("-- finished --") 
gen - f() 
next(gen) 


< starti 


Out[24]: 


In [25]: 


next (gen) 


-- middle -- 


Out[25]: 


In [26]: 


next(gen) 


- finished -- 


StopIteration Traceback (most recent c: 
«ipython-input-26-67c2d9ac4268» in <module>() 
----> 1 next(gen) 


StopIteration: 








普通 函数 不 同 ， 当 执行 f() 时 会 立即 执行 第 一 个 print , Hew aE gen 没 
有 执行 本 数 体内 的 任何 语句 。 只 有 当 用 next 激活 gen.next() 时 ， 截 至 到 第 一 


个 yield 的 语句 才 会 被 执行 。 第 二 个 next 打印 -- middle -- ， 执 行 到 第 二 
个 yield 终止 。 第 三 个 next 打印 -- finished -- ， 并 且 到 达 了 男 数 末尾 。 


因为 没有 找到 yield ， 抛 出 异常 。 


当 向 调用 者 传递 控制 时 ， 在 yield 之 后 沙 数 内 发 生 了 什么 ?每 一 个 生成 器 的 状态 被 存 
储 在 生成 器 对 象 中 。 从 生成 器 范 数 的 角度 ， 看 起 来 几乎 是 在 一 个 独立 的 线程 运行 ， 
但 是 ， 这 是 一 个 假象 : 执行 是 非常 严格 的 单线 程 ， 但 是 解释 器 记录 并 恢复 next A 
请 求 间 的 状态 。 


为 什么 生成 器 有 用 ?正如 迭代 器 部 分 的 提 到 的 ， 生 成 器 只 是 创建 迭代 对 象 的 不 同方 
X. FA yield 语句 可 以 完成 的 所 有 事 ， 也 都 可 以 用 next 方法 完成 。 尽 管 如 此 ， 

使 用 函数 ， 并 让 解释 器 执行 它 的 魔法 来 创建 迭代 器 有 优势 。 男 数 比 定义 一 个 带 

有 next 和 iter 方法 的 类 短 很 多 。 更 重要 的 是 ， 理 解 在 本 地 变量 中 的 状态 
比 理解 实例 属性 的 状态 对 于 生成 器 的 作者 来 说 要 简单 的 多 ， 对 于 后 者 来 事 必 须要 在 
迭代 对 象 上 不 断 调 用 next o 


更 广泛 的 问题 是 为 什么 迄 代 器 有 用 ? 当 和 迭代 器 被 用 于 循环 时 ， 循 环 变 的 非常 简单 。 
初始 化 状态 、 决 定 循环 是 否 结束 以 及 寻找 下 一 个 值 的 代码 被 抽取 到 一 个 独立 的 的 地 
方 。 这 强调 了 循环 体 - 有 趣 的 部 分 。 另 外 ， 这 使 在 其 他 地 方 重用 这 些 和 迭代 体 成 为 可 
25 


Abo 


2.1.1.4 双向 沟通 


每 个 yield 语句 将 一 个 值 传递 给 调用 者 。 这 是 由 PEP 255 (在 Python2.2 中 实现 ) 
引入 生成 器 简介 的 原因 。 但 是 ， 相 反方 向 的 沟通 也 是 有 用 的 。 一 个 明显 的 方式 可 以 
是 一 些 外 部 状态 ， 全 局 变量 或 者 是 共享 的 可 变 对 象 。 感 谢 PEP 342 (在 2.5 中 实现 ) 
使 直接 沟通 成 为 可 能 。 它 通过 将 之 前 枯燥 的 yeild 语句 转换 为 表达 式 来 实现 。 当 
生成 器 在 一 个 yeild 语句 后 恢复 执行 ， 调 用 者 可 以 在 生成 器 对 象 上 调用 一 个 方 
法 ， 或 者 向 生成 器 内 部 传递 一 个 值 ， 稍 后 由 yield 语句 返回 ， 或 者 一 个 不 同 的 方 
法 向 生成 器 注入 一 个 异常 。 


第 一 个 新 方法 是 send(value)， 和 与 next() 类 似 ， 但 是 ， 向 生成 器 传递 值 用 
F yield 表达 式 来 使 用 。 实 际 上 ， g.next() 和 g.send(None) 是 等 价 的 。 


第 二 个 新 方法 是 throw(type, value=None, traceback=None) 等 价 于 : 
In []: 


raise type, value, traceback 


在 yield 语句 的 点 上 。 


与 raise 不 同 (在 当前 执行 的 点 立即 抛 出 异常 )，throw( ) 只 是 首先 暂停 生成 器 ， 然 
后 抛 出 异常 。 挑 选 throw 这 个 词 是 因为 它 让 人 联想 到 将 异常 放 在 不 同 的 位 置 ， 这 与 
其 他 语言 中 的 异常 相似 。 


当 异 常 在 生成 器 内 部 抛 出 时 发 生 了 什么 ? 它 可 以 是 显 性 抛 出 或 者 当 执 行 一 些 语句 
时 ， 或 者 它 可 以 注入 在 yield 语句 的 点 上 ， 通 过 throw() 方法 的 意思 。 在 任何 
情况 下 ， 这 些 异常 用 一 种 标准 方式 传播 : 它 可 以 被 except 或 finally 语句 监 
听 ， 或 者 在 其 他 情况 下 ， 它 引起 生成 器 函数 的 执行 中 止 ， 并 且 传 播 给 调用 者 。 


为 了 完整 起 见 ， 应 该 提 一 下 生成 器 迭代 器 也 有 close() 图 数 ， 可 以 用 来 强制 一 个 可 能 
在 其 他 情况 下 提供 更 多 的 值 的 生成 器 立即 结束 。 它 允 许 生成 器 del 画 数 去 销毁 保持 生 
成 器 状态 的 对 象 。 


让 我 们 定义 一 个 生成 器 ， 打 印 通过 send 和 throw 传 递 的 内 容 。 


In [2]: 
import itertools 
def g(): 
print '--start--' 


for i in itertools.count(): 
print '--yielding %i--' % i 
try: 
ans - yield i 
except GeneratorExit: 


print '--closing--' 

raise 
except Exception as e: 

print '--yield raised %r--' %e 
else: 

print '--yield returned %s--' % ans 


In [3]: 


= g() 
next(it) 


Stante 
--yielding 0-- 


Out[3]: 


In [4]: 


it.send(11) 


--yield returned 11-- 
--yielding 1-- 


Out[4]: 


In [5]: 


it.throw(IndexError) 


--yield raised IndexError()-- 
- yielding 2-- 


Out[5]: 


In [6]: 


it.close() 


- -closing-- 


next 还 是 next? 


ftPython2.XrB, ARAA FRE F— 7 48 8975 7A ES Fnext, Cid $e m7 next 
来 唤醒 ， 这 意味 着 它 应 该 调用 next。 就 像 全 局 函数 iter 调 用 iter。 在 Python 3.X 中 修 
正 了 这 种 前 后 矛盾 ，it.next 变 成 it.next。 对 于 其 他 的 生成 器 方法 - 

send 和 throw -情况 更 加 复杂 ， 因 为 解释 器 并 不 隐 性 的 调用 它们 。 尽 管 如 此 ， 人 
们 提出 一 种 语法 扩展 ， 以 便 人 允许 continue 接收 一 个 参数 ， 用 于 传递 给 循环 的 迭代 
器 的 send。 如 果 这 个 语法 扩展 被 接受 ， 那 么 可 能 gen .send 将 变 

成 gen. send ”。 最 后 一 个 生成 器 范 数 ，close 非 常 明显 是 命名 错误 ， 因 为 ， 它 
已 经 隐 性 被 唤起 。 


2.1.1.5 生成 器 链 
注 : 这 是 PEP 380 的 预览 (没有 实现 ， 但 是 已 经 被 Python3.3 接 受 ) 。 


假设 我 们 正在 写 一 个 生成 器 ， 并 且 我 们 想 要 量 产 (yield) 由 第 二 个 生成 器 生成 的 一 
堆 值 ， 子 生成 器 。 如 果 只 关心 量 产值 ， 那 么 就 可 以 没 任何 难度 的 用 循环 实现 ， 比 如 


In]: 


for v in subgen: 
yield v 


但 是 ， 如 果子 生成 器 想 要 和 与 调用 者 通过 send(). throw() 和 close() 正确 交 
互 ， 事 情 就 会 变 得 复杂 起 来 。 yield 语句 必须 用 try..except..finally 结 构 保 护 起 来 ， 
与 前 面 的 生成 器 函数 "degug” 部 分 定义 的 类 似 。 在 PEP 380 提 供 了 这 些 代 码 ， 现 在 可 
以 说 在 Python 3.3 中 引入 的 新 语法 可 以 适当 的 从 子 生成 器 量 产 : 


In []: 


yield from some other generator() 


这 个 行为 与 上 面 的 显 性 循环 类 似 ， 重 复 从 some_other_generator 量 产值 直到 生 
成 器 最 后 ， 但 是 ， 也 可 以 向 前 对 子 生成 器 send 、 throw 和 close o 


2.1.2 修饰 器 
概述 


这 个 令 人 惊讶 功能 在 这 门 语言 中 出 现 几乎 是 有 赤 意 的 ， 并 且 担 心 它 是 否 真 的 那么 有 
用 。 


Bruce Eckel 一 Python 修饰 器 简介 


因为 函数 或 类 是 对 象 ， 因 此 他 们 都 可 以 传递 。 因 为 可 以 是 可 变 的 对 象 ， 所 以 他 们 可 
Ce 
为 修饰 。 


在 “修饰 器 "这 个 名 称 后 面 隐藏 了 两 件 事 -一 件 是 进行 修饰 工作 ( 即 进行 真实 的 工作 ) 
的 函数 ， 另 一 件 是 遵守 修饰 器 语法 的 表达 式 ，[email protected] 


用 画 数 的 修饰 器 语法 可 以 修饰 画 数 : 
In []: 
Qdecorator 


def function(): 
pass 


4 @ 
# 0D 


。 用 标准 形式 定义 的 函数 。@ 

e [email protected], €. [email protected]， 通 常 ， 这 只 是 函数 或 类 的 名 字 。 xt 
分 首先 被 评估 ， 在 下 面 的 函数 定义 完成 后 ， 修 饰 器 被 调用 ， 同 时 将 新 定义 的 函 
数 对 象 作为 惟一 的 人 参数。 修饰 器 的 返回 值 被 附加 到 函数 的 原始 名 称 上 。 


修饰 器 可 以 被 应 用 于 落 数 和 类 。 对 于 类 ， 语 法 是 一 样 的 - 原始 类 定义 被 作为 一 个 参 
数 来 调用 修饰 器 ， 并 且 无 论 返 回 什么 都 被 赋 给 原始 的 名 称 。 在 修饰 器 语法 实现 之 前 
(PEP 318) ， 通 过 将 函数 或 类 对 象 赋 给 一 个 临时 的 变量 ， 然 后 显 性 引用 修饰 器 ， 

然后 将 返回 值 赋 给 范 数 的 名 称 ， 也 可 以 到 达 相 同 的 效果 。 这 听 起 来 像 是 打 更 多 的 

字 ， 确 实 是 这 样 ， 并 且 被 修饰 本 数 的 名 字 也 被 打 了 两 次 ， 因 为 临时 变量 必须 被 使 用 
至 少 三 次 ， 这 很 容易 出 错 。 无 论 如 何 ， 上 面 的 例子 等 同 于 : 


In []: 


def function(): #0 
pass 
function = decorator (function) # @ 


(Espa TORE - 应 用 的 顺序 是 由 底 到 项 或 者 由 内 到 外 。 含 义 是 最 初 定义 的 函数 被 
第 一 个 修饰 器 作为 参数 使 用 ， 第 一 个 修饰 器 返回 的 内 容 被 用 于 第 二 个 修饰 器 的 参 
数 ，…， 最 后 一 个 修饰 器 返回 的 内 容 被 绑 定 在 最 初 的 函数 名 称 下 。 


选择 这 种 修饰 器 语法 是 因为 它 的 可 读 性 。 因 为 是 在 函数 头 之 前 指定 的 ， 很 明显 它 并 
不 是 函数 体 的 一 部 分 ， 并 且 很 显然 它 只 能 在 整个 函数 上 运行 。 因 为 ，[email 
protected] ("在 你 脸 上 "， 按 照 PEP 的 说 法 :)) 。 当 使 用 多 个 修饰 器 时 ， 每 一 个 都 是 
单独 的 一 行 ， 一 种 很 容易 阅读 的 方式 。 


2.1.2.1 替换 或 调整 原始 对 象 


修饰 器 可 以 返回 相同 的 函数 或 类 对 象 ， 也 可 以 返回 完全 不 同 的 对 象 。 在 第 一 种 情况 
下 ， 修 饰 器 可 以 利用 函数 和 类 对 象 是 可 变 的 这 个 事实 ， 并 且 添 加 属性 ， 即 为 类 添加 
修饰 字符 串 。 修 饰 器 可 以 做 一 些 有 用 的 事 甚 至 都 不 需要 修改 对 象 ， 例 如 ， 在 全 局 登 
记 中 登记 被 修饰 的 类 。 在 第 二 种 情况 下 ， 虚 拟 任何 东西 都 是 可 能 的 : 当 原 始 函 数 或 
类 的 一 些 东 西 被 蔡 换 了 ， 那 么 新 对 象 就 可 以 是 完全 不 同 的 。 尽 管 如 此 ， 这 种 行为 不 
是 修饰 器 的 目的 : 他 们 的 目的 是 微调 被 修饰 的 对 象 ， 而 不 是 一 些 不 可 预测 的 东西 。 
因此 ， 当 一 个 "被 修饰 的 “ 范 数 被 用 一 个 不 同 的 函数 蔡 换 ， 新 六 数 通常 调用 原始 的 函 


数 ， 在 做 完 一 些 预备 工作 之 后 。 同 样 的 ， 当 ”被 修饰 的 “类 被 新 的 类 蔡 换 ， 新 类 通常 

也 来 自 原始 类 。 让 修饰 器 的 目的 是 每 次 都 做 一 些 事 悄 ， 比 如 在 修饰 器 图 HHS iz 

每 次 调用 ， 只 能 使 用 第 二 类 修饰 器 。 反 过 来 ， 如 果 类 就 足够 了 ， 那 么 最 好 使 用 
一 类 ， 因为 ， 它 更 简单 。 


2.1.2.2 (RF MBM HL MAS th BS 


4& ts aS ETÉE— —^1 SESK IE RIEAFH— 23508 A. RRR th g RRR 
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交 一 下 画 数 和 类 的 方法 。 修 饰 器 表达 式 〈@ 后 面 的 部 分 ) 可 以 仅仅 是 一 个 名 字 ， 或 
者 一 次 调用 。 仅 使 用 名 字 的 方式 很 好 (输入 少 ， 看 起 来 更 整洁 等 ) ， 但 是 ， 只 能 在 
不 需要 参数 来 自 定义 修饰 器 时 使 用 。 作 为 函数 的 修饰 器 可 以 用 于 下 列 两 个 情况 


In [1]: 


def simple decorator(function): 
print "doing decoration" 
return function 

Qsimple decorator 

def function(): 
print "inside function" 


doing decoration 


In [2]: 


function() 


inside function 


In [6]: 


def decorator with arguments(arg): 
print "defining the decorator" 
def _decorator (function): 
# in this inner function, arg is available too 
print "doing decoration, ", arg 
return function 
return _decorator 


Qdecorator with arguments("abc") 
def function(): 
print "inside function" 


defining the decorator 
doing decoration, abc 
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In [7]: 


def replacing decorator with args(arg): 
print "defining the decorator" 
def _decorator(function): 
# in this inner function, arg is available too 
print "doing decoration,", arg 
def _wrapper(*args, **kwargs): 
print "inside wrapper,", args, kwargs 
return function(*args, **kwargs) 
return _wrapper 
return _decorator 
Qreplacing decorator with args("abc") 
def function(*args, **kwargs): 
print "inside function,", args, kwargs 
return 14 


defining the decorator 
doing decoration, abc 


In [8]: 


function(11, 12) 


inside wrapper, (11, 12) {} 
inside function, (11, 12) {} 


Out[8]: 


14 


定义 wrapper 本数 来 接收 所 有 位 置 和 关键 词 参数 。 通常 ， 我 们 并 不 知道 被 修饰 的 
画 数 可 能 接收 什么 参数 ， 因 此 封装 器 函数 只 是 向 被 封装 的 函数 传递 所 有 东西 。 一 
不 幸 的 结果 是 有 误导 性 的 表面 画 数 列表 。 


与 定义 为 函数 的 修饰 器 相 比 ， 定 义 为 类 的 复 条 修饰 器 更 加 简单 。 当 一 个 对 象 创建 
后 ，init 方 法 信人 允许 返回 None ， 已 创建 的 对 象 类 型 是 不 可 以 修改 的 。 这 意味 着 当 
一 个 被 作为 类 创建 后 ， 因 此 使 用 少 参 模式 没有 意义 : 最 终 被 修饰 的 对 象 只 会 是 由 构 
建 器 调用 返回 的 修饰 对 象 的 一 个 实例 ， 并 不 是 十 分 有 用 。 因 此 ， 只 需要 探讨 在 修饰 
器 表达 式 中 带 有 参数 并 且 修 饰 器 init 方 法 被 用 于 修饰 器 构建 ， 基 于 类 的 修饰 器 。 


In [9]: 


class decorator class(object): 

def — init (self, arg): 
# this method is called in the decorator expression 
print "in decorator init,", arg 
self.arg - arg 

def _ call (self, function): 
# this method is called to do the job 
print "in decorator call,", self.arg 
return function 


In [10]: 


deco instance - decorator class('foo') 


in decorator init, foo 


In [11]: 


Qdeco instance 
def function(*args, **kwargs): 
print "in function,", args, kwargs 


in decorator call, foo 
In [12]: 


function() 


in function, () {} 


与 通用 规则 相 比 (PEP 8) , RHE aS A KATA BREA, A, fir B9 
字 通 常 是 以 小 写字 母 开 头 。 
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对 象 可 以 保留 状态 ， 当 修饰 器 返回 新 的 对 象 时 ， 这 个 修饰 器 更 加 有 用 。 


In [13]: 


class replacing decorator class(object): 

def — init (self, arg): 
# this method is called in the decorator expression 
print "in decorator init,", arg 
self.arg - arg 

def _ call (self, function): 
# this method is called to do the job 
print "in decorator call,", self.arg 
self.function - function 
return self. wrapper 

def wrapper(self, *args, **kwargs): 
print "in the wrapper,", args, kwargs 
return self.function(*args, **kwargs) 


In [14]: 


deco instance - replacing decorator class('foo') 


in decorator init, foo 


In [15]: 


Qdeco instance 
def function(*args, **kwargs): 
print "in function,", args, kwargs 


in decorator call, foo 
In [16]: 


function(11, 12) 


in the wrapper, (11, 12) {} 
in function, (11, 12) {} 


像 这 样 一 个 修饰 器 可 以 非常 漂亮 的 做 任何 事 ， 因 为 它 可 以 修改 原始 的 函数 对 象 和 参 
数 ， 调 用 或 不 调用 原始 函数 ， 向 后 修改 返回 值 。 


2.1.2.3 复制 原始 范 数 的 文档 字符 串 和 其 他 属性 


当 修 饰 器 返回 一 个 新 的 函数 来 替代 原始 的 画 数 时 ， 一 个 不 好 的 结果 是 原始 的 函数 

名 、 原 始 的 文档 字符 串 和 原始 参数 列表 都 去 失 了 。 通 过 设置 doc (文档 字符 

FR) 、module 和 name (完整 的 函数) ， 以 及 annotations (关于 参数 和 返回 值 的 
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这 可 以 通过 使 用 functools.update_wrapper 来 自动 完成 。 


In []:In [17]: 


import functools 
def better replacing decorator with args(arg): 
print "defining the decorator" 
def _decorator (function): 
print "doing decoration, ", arg 
def _wrapper(*args, ea: 
print "inside wrapper,", args, kwargs 
return function(*args, **kwargs) 
return functools.update wrapper( wrapper, function) 
return decorator 
Qbetter replacing decorator with args("'abc") 
def function(): 
"extensive documentation" 
print "inside function" 
return 14 


defining the decorator 
doing decoration, abc 


In [18]: 
function 


Out[18]: 


«function | main .function» 


In [19]: 


print function. doc _ 


extensive documentation 


在 属性 列表 中 缺少 了 一 个 重要 的 东西 : SAR, ix REA AE BU SIS 1 EATER 
数 。 参 数 的 默认 值 可 以 用 TOM . . kwdefaults 属性 来 修改 ， 但 
是 ， 不 幸 的 是 参数 列表 本 身 不 能 设置 为 属性 。 这 意味 着 help(function) 将 显示 
无 用 的 参数 列表 ， ATEON RAA. 一 种 绕 过 这 个 问题 的 有 效 但 了 陋 的 方法 
是 使 用 eval 来 动态 创建 一 个 封装 器 。 使 用 外 部 的 decorator 模块 可 以 自动 完成 
这 个 过 程 。 它 提供 了 对 decorator 装饰 器 的 支持 ， 给 定 一 个 封装 器 将 它 转变 成 保 
留 事 数 签名 的 装饰 器 。 


总 结 一 下 ， 装 饰 器 通常 应 该 用 functools.update wrapper 或 其 他 方式 来 复制 函 
数 属性 。 


2.1.2.4 标准 类 库 中 的 实例 


首先 ， 应 该 说 明 ， 在 标准 类 库 中 有 一 些 有 用 的 修饰 器 。 有 三 类 波 饰 器 确实 构成 了 语 
言 的 一 部 分 : 


e classmethod 造成 函数 成 为 “类 方法 "， 这 意味 着 不 需要 创建 类 的 实例 就 可 以 激 
mE. MES 通 的 方法 被 激活 后 ， 解释 器 将 插入 一 个 实例 对 象 作为 第 一 个 位 置 参 
ZG self 。 当 类 方法 被 激活 后 ， 类 自身 被 作为 一 点 参数 ， 通 常 称 为 cls o 


dtes dug 因此 ， 他 们 不 会 污染 模块 的 命名 空 


In [1]: 


class Array(object): 
def _ init (self, data): 
self.data - data 


@classmethod 

def fromfile(cls, file): 
data = numpy.load(file) 
return cls(data) 


这 是 一 个 清洁 器 ， 然 后 使 用 大 量 的 标记 来 ”init 


ne ru 
命名 空间 访问 。 当 函数 只 在 这 个 类 的 内 部 需要 时 ( 它 的 名 字 应 该 与 为 
或 者 当 我 们 想 要 用 户 认 为 方法 是 与 类 关联 的 ， 尽 管 实施 并 不 需要 这 
B. 


e property 是 对 getters 和 setters pythonic 的 答案 。 用 property 修饰 过 的 方法 变 
成 了 一 个 getter，getter 会 在 访问 属性 时 自动 调用 。 


In [2]: 


class A(object): 
Qproperty 
def a(self): 
"an important attribute" 
return "a value" 


In [3]: 


Out[3]: 


«property at 0x104139260> 


In [4]: 


A().a 


Out[4]: 


'a value' 


在 这 个 例子 中 ， A.a 是 只 读 的 属性 。 它 也 写 人 了 文档 : help(4) 包含 从 getter 方 
法 中 拿 过 来 的 属性 的 文档 字符 串 。 将 a 定义 为 一 个 属性 允许 实时 计算 ， 副 作用 是 
它 变 成 只 读 ， 因 为 没有 定义 setter。 

要 有 setter 和 getter， 显 然 需要 两 个 方法 。 从 Python 2.6 开 始 ， 下 列 语 法 更 受 欢 迎 : 


In [5]: 


class Rectangle(object): 
def — init (self, edge): 
self.edge - edge 


Qproperty 
def area(self): 
"""Computed area. 


Setting this updates the edge length to the proper value. 


return self.edge**2 


@area.setter 
def area(self, area): 
self.edge = area ** 0.5 


这 种 方式 有 效 是 因为 property 修饰 器 用 property 对 象 蔡 换 getter 方 法 。 这 个 对 象 

反 过 来 有 三 个 方法 ， getter 、 setter 和 deleter ， 可 以 作为 修饰 器 。 他 们 的 
任务 是 设置 property 对 象 的 getter、 setter 和 deleter (存储 

为 fget 、 fset 和 fdel 属性 ) 。 当 创建 一 个 对 象 时 ，getter 可 以 像 上 面 的 例子 
中 进行 设置 。 当 定义 一 个 setter， 我 们 已 经 在 area 下 有 property 对 象 ， 我 们 通过 使 
用 setter 方 法 为 它 添加 setter。 所 有 的 这 些 发 生 在 我 们 创建 类 时 。 


接 下 来 ， 当 类 的 实例 被 创建 后 ，property 对 象 是 特别 的 ， 当 解释 器 执行 属性 访问 ， 
属性 赋值 或 者 属性 删除 时 ， 任 务 被 委托 给 property 对 象 的 方法 。 


为 了 让 每 个 事情 都 清晰 ， 让 我 们 定义 一 个 "debug" 例 子 : 
In [6]: 


class D(object): 

Qproperty 

def a(self): 
print "getting", 1 
return 1 

Qa.setter 

def a(self, value): 
print "setting", value 

Qa.deleter 

def a(self): 
print "deleting" 


«property at 0x104139520> 


In [8]: 


D.a.fget 


Out[8]: 


«function | main .a> 


In [9]: 


D.a.fset 


Out[9]: 


«function | main .a> 


In [10]: 


D.a.fdel 


Out[10]: 


«function | main .a> 


In [12]: 


getting 1 


Out[12]: 


D() HL 


varies, 


this is not the same 


^a^ funct: 





In [13]: 


d.a-2 


setting 2 


In [14]: 


del d.a 


deleting 


In [15]: 


d.a 


getting 1 


Out[15]: 


al 


属性 是 修饰 语 语法 的 极 大 扩展 。 修 饰 器 语法 的 一 个 前 提 - 名 字 不 可 以 重复 -被 违背 
了 ， 但 是 ， 到 目前 位 置 没有 什么 事变 粳 了 。 为 getter、setter 和 deleter 方 法 使 用 相同 
的 名 字 是 一 个 好 风格 。 

一 些 更 新 的 例子 包括 : 


e functools.Iru_cache 记忆 任意 一 个 画 数 保持 有 限 的 arguments\vanswer 对 缓存 
(Python 3.2) 
e functools.total _ordering 是 一 类 修饰 器 ， 根 据 单 一 的 可 用 方法 (Python 2.7) 补 
充 缺 失 的 顺序 方法 (It, gt, le, …) 。 


2.1.2.5 函数 废弃 


假如 我 们 想 要 在 我 们 不 再 喜欢 的 函数 第 一 次 激活 时 在 stderr 打印 废弃 警告 。 如 果 
我 们 不 像 修改 画 数 ， 那 么 我 们 可 以 使 用 修饰 器 : 


In [16]: 


class deprecated(object): 
"""Print a deprecation warning once on first use of the functi« 


>>> (deprecated() # doctest: +SKIP 
. def f(): 

us pass 

>>> f() 4 doctest: +SKIP 


f is deprecated 

def call (self, func): 
self.func - func 
self.count = 0 
return self. wrapper 

def _wrapper(self, *args, **kwargs): 
self.count += 1 
if self.count -- 

print self.func. name , 'is deprecated' 

return self.func(*args, **kwargs) 


HH À mt 





也 可 以 将 其 实施 为 一 个 图 数 : 
In [17]: 


def deprecated(func): 
"""Print a deprecation warning once on first use of the functic 


>>> @deprecated # doctest: +SKIP 
. def f(): 

eae pass 

>>> f() # doctest: +SKIP 


f is deprecated 

count = [0] 

def wrapper(*args, **kwargs): 
count[0] += 1 
if count[0] == 1: 

print func. name , 'is deprecated' 

return func(*args, **kwargs) 

return wrapper 


PJ E cn um si 





2.1.2.6 A while-loop 删 除 修饰 器 


假如 我 们 有 一 个 函数 返回 事物 列表 ， 这 个 列表 由 循环 创建 。 如 果 我 们 不 知道 需要 多 
少 对 象 ， 那 么 这 么 做 的 标准 方式 是 像 这 样 的 : 


In [18]: 


def find answers(): 

answers - [] 

while True: 
ans - look for next answer() 
if ans is None: 

break 

answers.append(ans) 

return answers 


只 要 循环 体 足够 紧 姿 ， 这 是 可 以 的 。 一 旦 循环 体 变 得 更 加 负责 ， 就 像 在 真实 代码 
中 ， 这 种 方法 的 可 读 性 将 很 差 。 我 们 可 以 通过 使 用 yield 话 句 来 简化 ， 不 过 ， 这 样 的 
话 ， 用 户 需 要 显 性 的 调用 列表 (find answers()) 。 


我 们 可 以 定义 一 个 修饰 器 来 为 我 们 构建 修饰 器 : 
In [19]: 


def vectorized(generator func): 
def wrapper(*args, **kwargs): 
return list(generator func(*args, **kwargs)) 
return functools.update wrapper(wrapper, generator func) 


接 下 来 我 们 的 函数 变 成 : 
In [ ]: 


Qvectorized 
def find answers(): 
while True: 
ans - look for next answer() 
if ans is None: 
break 
yield ans 


2.1.2.7 插件 注册 系统 


这 是 一 个 不 会 修改 类 的 类 修饰 器 ， 但 是 ， 只 要 将 它 放 在 全 局 注册 域 。 它 会 掉 入 返回 
原始 对 象 的 修饰 器 类 别 中 : 


In [21]: 


class WordProcessor(object): 
PLUGINS - [] 
def process(self, text): 
for plugin in self.PLUGINS: 
text - plugin().cleanup(text) 
return text 


Qclassmethod 
def plugin(cls, plugin): 
cls.PLUGINS.append(plugin) 


@WordProcessor.plugin 
class CleanMdashesExtension(object): 
def cleanup(self, text): 
return text.replace('&mdash;', u'\N{em dash}' ) 


这 里 我 们 用 修饰 器 来 分 权 插 件 注册 。 修 饰 器 是 名 词 而 不 是 动词 ， 因 为 我 们 用 它 来 声 
明 我 们 的 类 是 WordProcessor 的 一 个 插件 。 方 法 plugin 只 是 将 类 添加 到 插件 列 
表 中 。 


关于 这 个 插件 本 身 多 说 一 句 : 它 用 实际 的 Unicode 的 em-dash 字 符 替 换 了 em-dash 

HTML 实 体 。 它 利用 unicode 绝 对 标记 来 通过 字符 在 unicode 数 据 库 (“EM DASH”) 

中 的 名 字 来 插入 字符 。 如 果 直 接 插 入 Unicode 字 符 ， 将 无 法 从 程序 源 文件 中 区 分 en- 
dash。 


2.1.2.8 更 多 例子 和 阅读 


PEP 318 〈 画 数 和 方法 的 修饰 器 语法 ) 
PEP 3129 (类 修饰 器 语法 ) 
http://wiki.python.org/moin/PythonDecoratorLibrary 
http://docs.python.org/dev/library/functools.html 
http://pypi.python.org/pypi/decorator 
Bruce Eckel 

o Decorators |: Introduction to Python Decorators 

o Python Decorators Il: Decorator Arguments 

o Python Decorators III: A Decorator-Based Build System 


2.1.3 上 下 文 管理 器 


上 下 文 管理 器 是 带 有 enter 和 exit 方法 的 对 象 ， 在 with 语 句 中 使 用 : 
In]: 





with manager as var: 
do_something(var ) 


最 简单 的 等 价 case 是 


In]: 


var = manager.__enter__() 
try: 
do_something(var ) 
finally: 
manager. exit () 


换 句 话说 ， 在 PEP343 定 义 的 上 下 文 管理 器 协议 ， 使 料 try..excepit..finally 结 构 中 枯燥 
的 部 分 抽象 成 一 个 独立 的 类 ， 而 只 保留 有 趣 的 do something 代码 块 成 为 可 能 。 


1. 首先 调用 enter 方 法 。 它 会 返回 一 个 值 被 赋值 给 var o as 部 分 是 可 选 的 : 如 
果 不 存 在 ， enter ”返回 的 值 将 被 忽略 。 

2. with 下 面 的 代码 段 将 被 执行 。 就 像 try 从 名 一 样 ， 它 要 么 成 功 执行 到 最 
后 ， 要 么 break、continue 或 者 return， 或 者 它 抛 出 一 个 异常 。 无 论 哪 种 方式 ， 
在 这 段 代码 结束 后 ， 都 将 调用 exit。 如 果 抛 出 异常 ， 关 于 异常 的 信息 会 传递 
给 — exit  ， 将 在 下 一 个 部 分 描述 。 在 一 般 的 情况 下 ， 异 常 将 被 忽略 ， 就 
像 finally 从 句 一 样 ， 并 且 将 在 _exit_ 结束 时 重新 抛 出 。 


假如 我 们 想 要 确认 一 下 文件 是 否 在 我 们 写 入 后 马上 关闭 : 
In [23]: 


class closing(object): 
def — init (self, obj): 
self.obj - obj 
def — enter (self): 
return self.obj 
def — exit (self, *args): 
self.obj.close() 
with closing(open('/tmp/file', 'w')) as f: 
f.write('the contents\n' ) 


这 里 我 们 确保 当 with 代码 段 退出 后 ， f,.close() 被 调用 。 因 为 关闭 文件 是 非常 
常见 的 操作 ， 对 这 个 的 支持 已 经 可 以 在 file 类 中 出 现 。 它 有 一 个 exit 方 法 ， 调 用 
了 close 并 且 被 自己 用 于 上 下 文 管理 器 : 


In []: 


with open('/tmp/file', 'a') as f: 
f.write('more contents\n' ) 


try..finally 的 常用 用 途 是 释放 资源 。 不 同 的 情况 都 是 类 似 的 实现 : 
在 enter 人 阶段 是 需要 资源 的 ， 在 exit 阶段 ， 资 源 被 释放 ， 并 且 异 
常 ， 如 果 抛 出 的 话 ， 将 被 传递 。 就 像 with 文 件 一 样 ， 当 一 个 对 象 被 使 用 后 通常 有 一 


些 自然 的 操作 ， 最 方便 的 方式 是 由 一 个 内 建 的 支持 。 在 每 一 次 发 布 中 ，Python 都 在 
BS Bh tek T Sch : 


e 所 以 类 似 文件 的 对 象 : 
o file 2 自动 关闭 
o fileinput, tempfile (py >= 3.2) 
o bz2.BZ2File, gzip.GzipFile, tarfile.TarFile, zipfile.ZipFile 
o ftplib, nntplib > 关闭 连接 (py >= 3.2 BK 3.3) 
e 锁 
o multiprocessing.RLock > 锁 和 解锁 
o multiprocessing.Semaphore 
o memoryview > 自动 释放 (py >= 3.2 和 2.7) 
decimal.localcontext > 临时 修改 计算 的 精度 
_winreg.PyHKEY > 打开 或 关闭 hive 键 
warnings.catch warnings > 临时 杀 掉 警告 
contextlib.closing > 与 上 面 的 例子 类 似 ， 调 用 close 
并 行程 序 
o concurrent.futures. ThreadPoolExecutor > 激活 并 行 ， 然 后 杀 掉 线程 池 
(py >= 3.2) 
o concurrent .futures.ProcessPoolExecutor > 激活 并 行 ， 然 后 杀 掉 进程 池 
(py >= 3.2) 
o nogil > 临时 解决 GILL 问 题 (1x cython :( ) 


2.1.3.1 捕捉 异常 


当 with 代码 块 中 抛 出 了 异常 ， 异 常会 作为 参数 传递 给 eit o 

与 sys.exc_info() 类 似 使 用 三 个 参数 : type, value, traceback。 当 没有 异常 抛 出 

at, None 被 用 于 三 个 参数 。 上 下 文 管理 器 可 以 通过 从 exit _ 返回 true 值 
来 “ 吞 下 "异常 。 可 以 很 简单 的 忽略 异常 ， 因 为 如 果 ”exit 没有 使 用 return ， 
并 且 直 接 运 行 到 最 后 ， 返 回 None ， 一 个 false 值 ， 因 此 ， 异 常 在 — exit ”完成 
后 重新 抛 出 。 


捕捉 异常 的 能 力 开 启 了 一 些 有 趣 的 可 能 性 。 一 个 经 典 的 例子 来 自 于 单元 测试 -我 们 想 
要 确保 一 些 代 码 抛 出 正确 类 型 的 异常 : 


In [2]: 


class assert raises(object): 
# based on pytest and unittest.TestCase 
def _ init (self, type): 
self.type - type 
def — enter (self): 
pass 
def | exit (self, type, value, traceback): 
if type is None: 
raise AssertionError('exception expected!) 
if issubclass(type, self.type): 
return True £ swallow the expected exception 
raise AssertionError('wrong exception type') 


with assert raises(KeyError): 


{}['foo'] 


2.1.3.2 使 用 生成 器 定义 上 下 文 管理 器 


当 讨 论 生 成 器 时 ， 便 说 过 与 循环 相 比 ， 我 们 更 偏好 将 生成 器 实现 为 一 个 类 ， 因 为 ， 
他 们 更 短 、 更 美妙 ， 状 态 存 储 在 本 地 ， 而 不 是 实例 和 变量 。 另 一 方面 ， 就 如 在 双向 
沟通 中 描述 的 ， 生 成 器 和 它 的 调用 者 之 间 的 数据 流动 可 以 是 双向 的 。 这 包含 异常 ， 
可 以 在 生成 器 中 抛 出 。 我 们 希望 怪 上 下 文生 成 器 实现 为 一 个 特殊 的 生成 器 隙 数 。 实 
际 上 ， 生 成 器 协议 被 设计 成 可 以 支持 这 个 用 例 。 


In []: 


Qcontextlib.contextmanager 
def some generator(«arguments»?): 
«setup» 
try: 
yield «value» 
finally: 
«cleanup» 


contextlib.contextmanager 帮 助 者 可 以 将 一 个 生成 器 转化 为 上 下 文 管理 器 。 生 成 器 
需要 遵循 一 些 封 装 器 函数 强加 的 规则 -- 它 必须 yield 一 次 。 在 yield 之 前 的 部 分 
是 从 enter 来 执行 ， 当 生成 器 在 yield 挂 起 时 ， 由 上 下 文 管理 器 保护 的 代 
码 块 执行 。 如 果 抛 出 异常 ， 解 释 器 通过 ” exit 参数 将 它 交 给 封装 器 ， 然 后 封装 
PRATE yield 语句 的 点 抛 出 异常 。 通 过 使 用 生成 器 ， 上 下 文 管理 器 更 短 和 简 
单 。 


ARIF closing 例子 重 写 为 一 个 生成 器 : 
In [ ]: 


Qcontextlib.contextmanager 
def closing(obj): 
try: 
yield obj 
finally: 
0bj.close() 


让 我 们 将 assert raises 例子 重 写 为 生成 器 : 
In []: 


Qcontextlib.contextmanager 
def assert raises(type): 
try: 
yield 
except type: 
return 
except Exception as value: 
raise AssertionError('wrong exception type') 
else: 
raise AssertionError('exception expected!) 


3x EB ii FE th SR RS P AE Bx aS EN UE E 79 EF CER ! 
In [1]: 


%matplotlib inline 
import numpy as np 


2.2 高 级 Numpy 


作者 : Pauli Virtanen 


Numpy 是 Python 科学 工具 栈 的 基础 。 它 的 目的 很 简单 : 在 一 个 内 存 块 上 实现 针对 多 
个 物品 的 高 效 操作 。 了 解 它 的 工作 细节 有 助 于 有 效 的 使 用 它 的 有 灵活 性 ， 使 用 有 用 的 
快捷 键 ， 基 于 它 构 建新 的 工作 。 


这 个 指南 的 目的 包括 : 


剖析 Numpy 数 组 ， 以 及 它 的 重要 性 。 提 示 和 与 技巧 。 

通用 函数 : 什么 是 、 为 什么 以 及 如 果 你 需要 一 个 全 新 的 该 做 什么 。 

e 与 其 他 工具 整合 : Numpy 提 供 了 一 些 方式 将 任意 数据 封装 为 ndarray， 而 不 需 
要 不 必要 的 复制 。 

e 新 近 增 加 的 功能 ， 对 我 来 说 他 们 包含 什么 : PEP 3118 buffers, [^ 3L ufuncs, ... 


先决 条 件 


e Numpy (>= 1.2; 越 新 越 好 .…) 
e Cython (>= 0.12, 对 于 Ufunc 例 子 ) 
e PIL (在 一 些 例子 中 使 用 ) 


在 这 个 部 分 ，numpy 将 被 如 下 引入 : 
In [2]: 


import numpy as np 


章节 内 容 


e ndarry 的 一 生 


o 索引 体系 : strides 
剖析 中 的 发 现 
e EU 
o 他 们 是 什么 ? 
o 练习 : 从 需 开 始 构 建 一 个 ufunc 
o 答案 : 从 需 开 始 构 建 一 个 ufunc 
o [ sLufuncs 
e 协同 工作 功能 
o 共享 多 维度 ， 类 型 数据 
o 旧 的 buffer 协 议 
o 旧 的 buffer 协 议 
o 数组 接口 协议 
e 数组 切片 : chararray 、 maskedarray 、 matrix 


o chararray : 向 量化 字符 操作 
o masked array 缺失 值 

o recarray : 纯 便利 

o matrix : 便利? 

; 


Numpy/Scipy 做 贡献 
o 为 什么 

o 报告 bugs 
o 贡献 文档 

o 贡献 功能 

o 如 何 帮 忙 ， 总 的 来 说 


2.2.1 ndarray 的 一 生 


2.2.1.1 Cz... 


ndarray = 


内 存 块 + 索引 体系 + 数据 类 型 描述 符 


e 原始 数据 
e 如 何 定义 一 个 元 素 


。 如 何 解释 一 个 元 素 


In []: 




















header 


























ndarray 


typedef struct PyArrayObject ( 
PyObject HEAD 


/* Block of memory */ 
char *data; 


/* Data type descriptor */ 
PyArray Descr *descr; 


/* Indexing scheme */ 

int nd; 

npy intp *dimensions; 

npy intp *strides; 

/* Other stuff */ 

PyObject *base; 

int flags; 

PyObject *weakreflist; 
) PyArrayObject; 


2.2.1.2 V3 Tz 3 


In [5]: 


x = np.array([1, 2, 3, 4], dtype=np.int32) 
x.data 


Out[5]: 


«read-write buffer for 0x105ee2850, size 16, offset © at Ox105f8801 
和 和 和 和 和 和 和 和 aaa 
In [6]: 





str(x.data) 


Out[6]: 
'NXO1NX00NXOONXOONXO2NXOONXOONXOONXO3NXOONXOONXOONXOANXOONXOONXOO ' 

二 -AA 

数据 的 内 存 地 址 : 

In [7]: 


x. . array interface ['data'][0] 


Out[7]: 

4352517296 
完整 的 — array interface _ 
In [8]: 


x. array interface _ 


Out[8]: 


('data': (4352517296, False), 

ae s cross est sega 

'shape': (4,), 

'strides': None, 

'typestr': '«i4', 

'version': 3) 
提醒 : 两 个 ndarrays 可 以 共享 相同 的 内 存 : 
In [9]: 


np.array([1, 2, 3, 4]) 
x[:-1] 


Out[9]: 

array([9, 2, 3]) 
内 存 不 必 为 一 个 ndarray 拥有 : 
In [10]: 


x = '1234' 
= np.frombuffer(x, dtype-np.int8) 
.data 


<< 


Out[10]: 


«read-only buffer for 0x105ee2e40, size 4, offset © at Ox105f883b0: 





aj 





JA 





In [11]: 


y.base is x 


Out[11]: 


True 


In [12]: 


y.flags 


Out[12]: 


C CONTIGUOUS : True 
F CONTIGUOUS : True 
OWNDATA : False 
WRITEABLE : False 
ALIGNED : True 
UPDATEIFCOPY : False 


owndata 和 writeable 标记 表明 了 内 存 块 的 状态 。 
也 可 以 看 一 下 : array 接 口 


2.2.1.3 数据 类 型 


2.2.1.3.1 描述 符 
dtype 描述 了 数组 里 的 一 个 项 目 : 


数据 的 标量 类 型 ，int8、int16、float64 等 之 一 (固定 大 小 ) , str 


Ype unicode, void (可 变 大 小 ) 

itemsize — 数据 块 的 大 小 

byteorder ” 字 节 序 : big-endian &gt; /little-endian &1t; /不 可 用 
fields 子 -dtypes， 如 果 是 一 个 结构 化 的 数据 类 型 

shape 数组 的 形状 ， 如 果 是 一 个 子 数 组 


In [13]: 
np.dtype(int).type 
Out[13]: 
numpy . int64 
In [14]: 
np.dtype(int).itemsize 
Out[14]: 
8 
In [15]: 
np.dtype(int).byteorder 


Out[15]: 


2.2.1.3.2 例子 : 读 取 .wav 文 件 


The ,wav file header: 


chunk id "RIFF" 





chunk size 4 字 节 无 符号 little-endian 整 型 
format "WAVE" 

fmt id "fmt " 

fmt size 4 字 节 无 符号 little-endian 整 型 
audio fmt 2 字 节 无 符号 little-endian 整 型 
num_channels 2 字 节 无 符号 little-endian 整 型 
sample rate 4 字 节 无 符号 little-endian 整 型 
byte_rate 4 字 节 无 符号 little-endian 整 型 
block align 2 字 节 无 符号 little-endian 整 型 
bits per sample 2 字 节 无 符号 little-endian 整 型 
data id "data" 

data size 4 字 节 无 符号 little-endian 整 型 


e 44 字 节 块 的 原始 数据 (在 文件 的 开头 ) 


. 接 下 来 是 data_size 实际 声音 数据 的 字 节 。 


,wav 文件 头 是 Numpy 结 构 化 数据 类 型 : 


In [6]: 


wav. header dtype = np.dtype([ 


("chunk_id", (str, 4), # flexible-sized scalar type, item s: 
("chunk size", "«u4"), 4 little-endian unsigned 32-bit inte( 
("format", "S4"), 4 4-byte string 

("fmt_id", ESA) 
("fmt_size", "<u4"), 
("audio_fmt", "<u2"), 
("num channels", "«u2"), 
("sample rate", "«u4"), 
("byte rate", "«u4"), 
("block align", "«u2"), 
("bits per sample", "«u2"), 

("data id", ("Si", (2, 2))), # sub-array, just for fun! 
("data size", "u4"), 

# 

# the sound data itself cannot be represented here: 

# it does not have a fixed size 


] ) 


. more of the same ... 


dk db dt 








也 可 以 看 一 下 wavreader .py 
In [5]: 


wav header dtype['format'] 


Out[5]: 


dtype('S4') 


In [6]: 


wav. header dtype.fields 


Out[6]: 


«dictproxy {'audio_fmt': (dtype('uinti16'), 20), 
'bits per sample': (dtype('uinti16'), 34), 
'block align': (dtype('uint16'), 32), 
'byte rate': (dtype('uint32'), 28), 
'chunk id': (dtype('S4'), 0), 
"chunk_size': (dtype('uint32'), 4), 

'data id': (dtype(('S1', (2, 2))), 36), 
'data size': (dtype('uint32'), 40), 
'fmt id': (dtype('S4'), 12), 

'fmt size': (dtype('uint32'), 16), 
'format': (dtype('S4'), 8), 

'num channels': (dtype('uinti6'), 22), 
'sample rate': (dtype('uint32'), 24)}> 


In [7]: 

wav. header dtype.fields['format'] 
Out[7]: 

(dtype('S4'), 8) 


e 第 一 个 元 素 是 结构 化 数据 中 对 应 于 名 称 format 的 子 类 型 
e 第 二 个 是 它 的 从 项 目 开 始 的 偏 移 (以 字 节 计算 ) 


练习 


We, xS: BRmIExeOS—T Wm dtype, REA- EFR : 
In []: 


wav header dtype - np.dtype(dict( 
names-['format', 'sample rate', 'data id'], 
offsets-[offset 1, offset 2, offset 3], # counted from start of : 
formats-list of dtypes for each of the fields, 


)) 
‘| 8 








并 且 用 它 来 读 取 sample rate 和 data id (就 像 子 数 组 ) 。 
In [7]: 


f - open('data/test.wav', 'r') 

wav header - np.fromfile(f, dtype-wav header dtype, count-1) 
f.close() 

print(wav header) 


[ ('RIFF', 17402L, 'WAVE', 'fmt ', 16L, 1, 1, 16000L, 32000L, 2, 1¢ 
Aoo YOR 
In [8]: 





wav. header['sample rate'] 


Out[8]: 

array([16000], dtype=uint32) 
让 我 们 访问 子 数 组 : 
In [9]: 


wav_header[ 'data_id' ] 


Out[9]: 


array([[['d', ' 
Ip I 


a'], 
a']]], 
dtype='|Si') 


In [10]: 
wav. header.shape 
Out[10]: 
(1, ) 
In [11] 
wav. header['data id'].shape 
Out[11]: 


(1, 2, 2) 


当 访问 子 数组 时 ， 维 度 被 添加 到 末尾 ! 


注意 : 有 许多 模块 可 以 用 于 加 载 声音 数据 ， 比 如 wavfile 、 


2.2.1.3.3 投射 和 再 解释 /视图 
投射 

e 赋值 

e 数组 构建 

。 算术 

e 手动 : .astype(dtype) 
data re-interpretation 


e 手动 .view(dtype) 


2.2.1.3.3.1 投射 


e FRARI, MS: 

o 只 有 类 型 (TEE!) 操作 符 最 重要 

o 最 大 的 "安全 "模式 能 代表 选 出 的 两 者 

o 在 一 些 情况 下 ， 数 组 中 的 量 值 可 能 “丢失 ” 
。 在 通用 复制 数据 中 的 投射 : 


In [4]: 


audiolab $&.. 


x = np.array([1, 2, 3, 4], dtype-np.float) 
x 


Out[4]: 
array([ 1., 2., 3., 4.]) 


In [5]: 


y = x.astype(np.int8) 
y 


Out[5]: 

array([1, 2, 3, 4], dtype-int8) 
In [6]: 

y*1 
Out[6]: 

array([2, 3, 4, 5], dtype-int8) 
In [7]: 

y * 256 
Out[7]: 

array([257, 258, 259, 260], dtype=int16) 
In [8]: 

y * 256.0 


Out[8]: 


array([ 257., 258., 259., 260.]) 


In [9]: 


y + np.array([256], dtype=np.int32) 


Out[9]: 


array([257, 258, 259, 260], dtype-int32) 


e 集合 项 目 上 的 投射 : 数组 的 dtype 在 项 目 赋值 过 程 中 不 会 改变 : 
In [10]: 


yYE:] =y * 1.5 
y 


Out[10]: 


array([2, 3, 4, 5], dtype-int8) 


注意 具体 规则 : 见 文 
档 : http://docs.scipy.org/doc/numpy/reference/ufuncs.html#casting-rules 


2.2.1.3.3.2 再 解释 /视图 

e 内 存 中 的 数据 块 (4 字 节 ) 
0x01 || 0x02 || 0x03 || Ox04 
of uint8, OR, 
of int8, OR, 
inti6, OR, 


of int32, OR, 
of float32, OR, 


I 
- HENA 
- o 

—h 


如 何 从 一 个 切换 另 一 个 ? 
e 切换 dtype : 
In [11]: 


x = np.array([1, 2, 3, 4], dtype-np.uint8) 
x.dtype = "<i2" 
x 


Out[11]: 

array([ 513, 1027], dtype=int16) 
In [12]: 

0x0201, 0x0403 
Out[12]: 


(513, 1027) 


0x01 0x02 || 0x03 0x04 

A little-endian : 越 不 重要 的 字 节 在 内 存 的 左 侧 
e 创建 新 视图 : 

In [14]: 


y = X.view("<i4") 
y 
Out[14]: 
array([67305985], dtype=int32) 
In [15]: 
0x04030201 
Out[15]: 


67305985 


0x01 0x02 0x03 0x04 


Na: i 
zt Ae. 


e .view() 创建 视图 ， 并 不 复制 (或 改变 ) AFR 
e 只 改变 dtype (调整 数组 形状 ) : 
In [16]: 
x[1] = 5 
In [17]: 
y 
Out[17]: 
array([328193], dtype-int32) 
In [18]: 
y.base is x 
Out[18]: 


True 


小 练习 : 数据 再 解释 
也 可 以 看 一 下 : view-colors.py 


数组 中 的 RGBA 数 据 : 
In [19]: 
x = np.zeros((10, 10, 4), dtype=np.ints) 
x[:，:，9] = 1 
x[:, :, 1] = 2 
x[:, :, 2] = 3 
x[ , , 3] = 4 


后 三 个 维度 是 R、B 和 G， 以 及 alpha 渠 道 。 
如 何 用 字段 名 rT", ‘g’, ‘b’, ‘a' 创 建 一 个 (10，10) 结构 化 数组 而 不 用 复制 数据 ? 
In []: 


yw 


assert (y['r'] == 1).all() 
assert (y['g'] == 2).all() 
assert (y['b'] == 3).all() 
assert (y['a'] == 4).all() 


D 


ES 


警告 : 另 一 个 占有 四 个 字 节 内 存 的 数组 : 
In [21]: 


np.array([[1, 3], [2, 4]], dtype=np.uint8).transpose() 


y 
x = y.copy() 


X 


Out[21]: 


array([[1, 2], 
[3, 4]], dtypezuint8) 


~ 


In [22]: 
y 
Out[22]: 


array([[1, 2], 
[3, 4]], dtypezuint8) 


In [23]: 
x.view(np.inti16) 


Out[23]: 


array([[ 513], 
[1027]], dtype-inti6) 


In [24]: 


0x0201, 0x0403 


Out[24]: 


(513, 1027) 


In [25]: 


y.view(np.inti6) 


Out[25]: 


array([[ 769, 1026]], dtype-int16) 


e 发 生 了 什么 ? 
e .… 我 们 需要 实际 看 一 下 x[0,1] 里 面 是 什么 


In [26]: 


0x0301, 0x0402 


Out[26]: 


(769, 1026) 


2.2.1.4 索引 体系 : 步 幅 


2.2.1.4.1 主要 观点 


问题 


In [28]: 


x - np.array([[1, 2, 3], 

[4, 5, 6], 

[7, 8, 9]], dtypeznp.int8) 
str(x.data) 


Out[28]: 
'NX0O1NX02NXO3NXOANXOBNXOGNXO7NX08NE ' 
item x[1,2] 开 始 在 x.data 中 的 哪个 字 节 ? 


答案 (在 Numpy) 


e OR: 寻找 一 下 个 元 素 跳 路 的 字 节 数 
e 每 个 维度 一 个 步 幅 
In [29]: 


x.strides 
Out[29]: 
(3, 1) 


In [31]: 


byte offset = 3*1 + 1*2 # 查找 x[1,2] 
x.data[byte offset] 


Out[31]: 
"\x06' 


In [32]: 

X22 
Out[32]: 

6 

e 简单 、 灵 活 


2.2.1.4.1.1 CfllFortranil FF 
In [34]: 


x = np.array([[1, 2, 3], 

[4, 5, 6], 

[7, 8, 9]], dtype=np.int16, order='C') 
x.strides 


Out[34]: 


(6, 2) 


In [35]: 


str(x.data) 


Out[35]: 


' NX01NX00NX02NX00NX03NX00NXO4NXOONXOBNX0OONXOGNX00NX07NX00NX08NX00NM 
4] 


e 需要 跳跃 6 个 字 节 寻 找 下 一 行 
e 需要 跳跃 2 个 字 节 寻找 下 一 列 


In [36]: 





y = np.array(x, order='F') 
y.strides 


Out[36]: 


(2, 6) 


In [37]: 


str(y.data) 


Out[37]: 


'NXO1NX00NXOANXOONXO7NXO0NX02NX00NXO5NX0O0NX0O8NXO0NXO3NXO00NX06NX00N1 


«| = 











e 需要 跳跃 2 个 字 节 寻 找 下 一 行 


e 需要 跳跃 6 个 字 节 寻找 下 一 列 


更 高 维度 也 类 似 : 
- C: 最 后 的 维度 变化 最 快 (= 最 小 的 步 幅 ) 
- F: 最 早 的 维度 变化 最 快 


shape = (di, də, ..., dn) 
strides = (51, 59, ..., Sn) 
9$; = dj410542...d, X Itemsize 
= did»...d;.., x itemsize 
注意 : 现在 我 们 可 以 理解 .view() 的 行为 : 
In [38]: 


np.array([[1, 3], [2, 4]], dtype2znp.uint8).transpose() 
y.copy() 


变换 顺序 不 影响 数据 的 内 部 布局 ， 只 是 步 幅 
In [39]: 


x.strides 


Out[39]: 


(2, 1) 


In [40]: 


y.strides 


Out[40]: 


(1, 2) 


In [41]: 


str(x.data) 


Out[41]: 


'NX0O1NX02Nx03Nx04 ' 


In [42]: 


str(y.data) 


Out[42]: 


'NXO1NX03Nx02Nx04A4 ' 
e 当 解 释 为 int16 时 结果 会 不 同 
e .copy() 以 C 顺 序 (默认 ) 创建 新 的 数组 


2.2.1.4.1.2 用 整数 切片 


e 通过 仅 改变 形状 、 步 幅 和 可 能 调整 数据 指针 可 以 代表 任何 东西 ! 
。 不 用 制造 数据 的 副本 


In [43]: 
x - np.array([1, 2, 3, 4, 5, 6], dtypeznp.int32) 
y = x[::-1] 
y 

Out[43]: 


array([6, 5, 4, 3, 2, 1], dtype-int32) 


In [44]: 


y.strides 


Out[44]: 


(-4,) 


In [45]: 


y = x[2:] 


y. array interface ['data'][0] - x.__array_interface__['data'][0 


‘| 





EE n] 








Out[45]: 
8 
In [46]: 


x = np.zeros((10, 10, 10), dtype=np. float) 
x.strides 


Out[46]: 


(800, 80, 8) 


In [47]: 


xpi:2 223,27 24).-strides 


Out[47]: 


(1600, 240, 32) 


e 类 似 的 ， 变 换 顺 序 绝 不 会 创建 副本 〈 只 是 交换 的 步 幅 ) 
In [48]: 


x = np.zeros((10, 10, 10), dtype=np.float) 
x.strides 


Out[48]: 


(800, 80, 8) 


In [49]: 


x.T.strides 


Out[49]: 

(8, 80, 800) 
但 是 : 并 不 是 所 有 的 重 排 操 作 都 可 以 通过 操纵 步 幅 来 完成 。 
In [3]: 


= np.arange(6, dtype=np.int8).reshape(3, 2) 
- a.T 


oof 
| 


Out[3]: 


(1, 2) 


到 目前 为 止 ， 都 很 不 错 ， 但 是 : 
In [4]: 


str(a.data) 


Out[4]: 


"\x00\x01\x02\x03\x04\x05' 


In [5]: 


b 


Out[5]: 


array([[0, 2, 4], 
[1, 3, 5]], dtype-ints8) 


In [6]: 


c = b.reshape(3*2) 
C 


Out[6]: 


array([0, 2, 4, 1, 3, 5], dtype-int8) 
这 里 ， 没 办 法 用 一 个 给 定 的 步 长 和 a 的 内 存 块 来 表示 数组 c 。 因 此 ， 重 排 操作 在 
这 里 需要 制作 一 个 副本 。 


2.2.1.4.2 例子 : 用 步 长 伪造 维度 
步 长 操作 
In [2]: 


from numpy.lib.stride tricks import as strided 
help(as strided) 


Help on function as strided in module numpy.lib.stride tricks: 


as strided(x, shape=None, strides=None) 


Make an ndarray from the given array with the given shape and : 





警告 as strided 并 不 检查 你 是 否 还 待 在 内 存 块 边界 里 .. 
In [9]: 
x = 


np.array([1, 2, 3, 4], dtype=np.int16) 
as strided(x, strides-(2*2, ), shape=(2, )) 


Out[9]: 

array([1, 3], dtype=int16) 
In [10]: 

cpu] 


Out[10]: 


array([1, 3], dtype-int16) 


也 可 以 看 一 下 : stride-fakedims.py 
练习 
In []: 


array([1, 2, 3, 4], dtype=np.ints) 
gs array([[1, 2, 3, 4], 


[1, 2, 3, 4], 
[1, 2, 3, 4]], dtype-np.int8) 


仅 使 用 as strided .: 

提示 : byte offset = stride[O]index[0] + stride[1]index[1] + ... 
解密 : 

步 长 可 以 设置 为 0 : 

In [11]: 


np.array([1, 2, 3, 4], dtype=np.ints) 
as strided(x, strides=(0, 1), shape=(3, 4)) 


<< 


Out[11]: 


array([[1, 2, 3, 4], 
[1, 2, 3, 4], 
[1, 2, 3, 4]], dtypezint8) 


In [12]: 


y.base.base is x 


Out[12]: 


True 


2.2.1.4.3 广播 


。 用 它 来 做 一 些 有 用 的 事情 : [1, 2, 3, 4] 和 [5, 6, 7] 的 外 积 
In [13]: 


x = np.array([1, 2, 3, 4], dtype=np.int16) 
x2 = as strided(x, strides-(0, 1*2), shape=(3, 4)) 
x2 


Out[13]: 


array([[1, 2, 3, 4], 
[1, 2, 3, 4], 
[1, 2, 3, 4]], dtype-inti6) 


In [14]: 


y = np.array([5, 6, 7], dtype-np.int16) 
y2 = as strided(y, strides-(1*2, 0), shape=(3, 4)) 
y2 


Out[14]: 


array([[5, 5, 5, 5], 
[6, 6, 6, 6], 
[7, 7, 7, 7]], dtype=int16) 


In [15]: 


X25 2 


Out[15]: 


array([[ 5, 10, 15, 20], 
[o5 10 i ZA 
[ 7, 14, 21, 28]], dtype=int16) 


... 看 起 来 有 一 些 熟 悉 .… 
In [16]: 


x = np.array([1, 2, 3, 4], dtypeznp.int16) 
y = np.array([5, 6, 7], dtype-np.int16) 
x[np.newaxis,:] * y[:,np.newaxis] 


Out[16]: 


array([[ 5, 10, 15, 20], 
[56:12 18/724] 
[ 7, 14, 21, 28]], dtype=int16) 


e 在 内 部 ， 数 组 广播 的 确 使 用 0 步 长 来 实现 的 。 


2.2.1.4.4 更 多 技巧 : 对 角 线 
也 可 以 看 一 下 stride-diagonals.py 
挑战 
e 提取 和 矩阵 对 角 线 的 起 点 : (假定 是 C 内 存 顺 序 ) 
In [] 


x - np.array([[1, 2, 3], 
区 © ell 
[7, 8, 9]], dtype=np.int32) 


x diag = as strided(x, shape=(3,), strides-(???,)) 


e 提取 第 一 个 超级 -对 角 线 的 起 点 [2,6]。 
。 那么 子 对 角 线 呢 ? 


(后 两 个 问题 的 提示 : 切片 首先 移动 步 长 起 点 的 点 。) 


答案 
提取 对 角 线 : 
In [6]: 


x diag = as strided(x, shape=(3, ), strides=((3+1)*x.itemsize, )) 
x diag 





国 





Out[6]: 


array([1, 5, 9], dtype-int32) 


首先 切片 ， 调 整数 据 指针 : 
In [8]: 


as strided(x[0, 1:], shape=(2, ), strides=((3+1)*x.itemsize, )) 


Out[8]: 


array([2, 6], dtype=int32) 


In [9]: 


as strided(x[1:, 0], shape=(2, ), strides=((3+1)*x.itemsize, )) 


Out[9]: 


array([4, 8], dtype-int32) 


np.diag(x, k=1) 


Out[7]: 


array([2, 6], dtype-int32) 


但 是 


In [8]: 


y.flags.owndata 


Out[8]: 


False 


这 是 一 个 副本 ? ! 


也 可 以 看 一 下 stride-diagonals.py 


挑战 
计算 张 量 的 迹 : 
In [9]: 


p.arange(5*5*5*5).reshape(5,5,5,5) 


x-n 

s=0 

for i in xrange(5): 

for j in xrange(5): 
s += x[j,i,j,i] 


通过 跨越 并 且 在 结果 上 使 用 sum) o 
Int]: 


y = as strided(x, shape=(5, 5), strides=(TODO, TODO) ) 


BS ome 
assert s == s2 


答案 


In [ ]: 
y = as strided(x, shape=(5, 5), strides=((5*5*5 + 5)*x.itemsize, 


(5*5 + 1)*x.itemsize)) 
s2 = y.sum() 


2.2.1.4.5 CPU 缓存 效果 
内 存 布 局 可 以 影响 性 能 : 
In [13]: 


np.zeros( (20000, )) 
np.zeros((20000*67,))[::67] 
.shape, y.shape 


x x< 


Out[13]: 


((20000,), (20000, )) 


In [14]: 


%timeit x.sum() 


The slowest run took 20.69 times longer than the fastest. This cou- 
10000 loops, best of 3: 15.4 us per loop 





In [15]: 


%timeit y.sum() 


The slowest run took 114.83 times longer than the fastest. This cot 
10000 loops, best of 3: 53 us per loop 





In [16]: 


x.strides, y.strides 


Out[16]: 


((8,), (536,)) 


小 步 长 更 快 ? 





= = 
cache block size 
e CPU 从 主 内 存 中 拉 取 数据 到 缓存 块 pulls data from main memory to its cache 
in blocks 
。 如 果 需 要 数据 项 连续 操作 适应 于 一 个 内 存 块 〈 小 步 长 ) 
o 需要 更 少 的 迁移 
o 更 快 


也 可 以 看 一 下 : numexpr 设计 用 来 减轻 数组 计算 时 的 缓存 效果 。 


2.2.1.4.6 例子 : 原 地 操作 ( 买 者 当心 ) 


有 时 ， 
In []: 

a -= b 
并 不 等 同 于 
In []: 


a -- b.copy() 


In [21]: 


x = np.array([[1, 2], [3, 4]]) 
X -- x.transpose() 
x 


Out[21]: 


array([[ ©, -1], 
[ 1, 9]]) 


In [22]: 
y = np.array([[1, 2], [3, 411) 
y -= y.T.copy() 
y 

Out[22]: 


array([[ ©, -1], 
[ 1, 9]]) 


e x 和 x.transpose() 共享 数据 
e x -= x.transpose() 逐个 元 素 修改 数据 .… 
e 因为 x 和 x.transpose() 步 长 不 同 ， 修 改 后 的 数据 重新 出 现在 RHS 



































2.2.1.5 天 析 上 的 发 现 
| 
pes] ih | 
ndarray 


e 内 存 块 : 可 以 共享 ， .base 、 .data 

e 数据 类 型 描述 符 : 结构 化 数据 、 子 数组 、 字 节 顺 序 、 投 射 、 视 
图 、 .astype() .view() 

e 步 长 来 引 : 跨越 、C/F-order、w/ 整数 切片 、 as_strided 、 广 播 、 跨 越 技 
巧 、 diag 、CPU 缓 存 一 致 性 


2.2.2 通用 函数 


2.2.2.1 他 们 是 什么 ? 
e Ufunc 在 数组 的 所 有 元 素 上 进行 元 素 级 操作 。 
例子 : 


np.add 、 np.subtract 、  scipy.special .*,.. 


e 自动 话 支持 : 广播 、 投 射 … 
eufunc 的 作者 只 提供 了 元 素 级 操作 ，Numpy 负 责 剩 下 的 。 
e 元 素 级 操作 需要 在 C 中 实现 (或 者 比如 Cython) 


2.2.2.1.1 Ufunc 的 部 分 
e 由 用 户 提 供 
In []: 


void ufunc loop(void **args, int *dimensions, int *steps, void *dat 
{ 
ee 
* int8 output = elementwise function(int8 input 1, int8 input. 
* 
* This function must compute the ufunc for many values at onct 
* in the way shown below. 
A 
char *input 1 (char* )args[0]; 
char *input 2 (char *)args[1]; 
char *output - (char*)args[2]; 
int i; 


for (i = 0; i < dimensions[0]; ++i) { 
*output = elementwise function(*input 1, *input 2); 
input 1 += steps[0]; 
input 2 += steps[1]; 
output += steps[2]; 





e Numpy 部 分 ， 由 下 面 的 代码 创建 
In []: 


char types[3] 


types[0] - NPY BYTE /* type of first input arg */ 
types[1] = NPY BYTE A /* type of second input arg */ 
types[2] = NPY BYTE /* type of third input arg */ 


PyObject *python_ufunc = PyUFunc_FromFuncAndData( 
ufunc_loop, 
NULL, 
types, 
1, /* ntypes */ 
2, /* num_inputs */ 
1, /* num_outputs */ 
identity_element, 
name, 
docstring, 
unused) 


- Ufunc 也 可 以 支持 多 种 不 同 输 入 输出 类 型 组 合 。 


2.2.2.1.2 简化 一 下 


ufunc loop 是 非常 通用 的 模式 ，Numpy 提 供 了 预制 


PD HITS SE float elementwise func(float input 1) 

PYUTUNCE Rion float elementwise_func(float input_1, float input 
PyUfunc_d_d double elementwise_func(double input 1) 
PyUfunc_dd_d double elementwise_func(double input_1, double in 
PyUfunc_D_D elementwise func(npy cdouble \*input, npy cdouble 
PyUfunc DD D elementwise func(npy cdouble \*in1i, npy cdouble \ 


- 只 有 需要 提供 "elementwise_func、 

- ... 除非 当 你 的 元 素 级 函数 不 是 上 面 的 形式 中 的 任何 一 种 
2.2.2.2 练习 : 从 0 开始 构建 一 个 ufunc 
Mandelbrot D K AA F EREL : 


2 
-A 


c=X+iy E-D, REZDAZAIEN, THEREZA, YXR(NSBAESE, 
C 属 于 Mandelbrot 集 。 


e Ufunc 调 用 mandel(z0, c) 计算 : 
In []: 


Z = z0 
for k in range(iterations): 
Zee ete (GC 


比如 ， 一 百 次 迭代 或 者 直到 z.real**2 + z.imag**2 &gt; 1000, ACH RE 
哪个 c 是 在 Mandelbrot 集 中 。 


e 我 们 的 函数 是 很 简单 的 ， 因 此 ， 请 利用 PyUFunc_* 助手 。 
e 用 Cython 来 完成 


也 可 以 看 一 下 mandel.pyx , mandelplot.py 


提醒 : 一 些 预 设 Ufunc 循 环 : 


PTT OC float elementwise func(float input 1) 

PyUfunc_ff_f float elementwise_func(float input_1, float input 

PyUfunc_d_d double elementwise func(double input 1) 

PyUfunc dd d double elementwise func(double input 1, double in 

PyUfunc D D elementwise func(complex double *input, complex d 

PyUfunc DD D elementwise func(complex double *ini, complex dou 
打印 代码 : 


NPY BOOL, NPY BYTE, NPY UBYTE, NPY SHORT, NPY USHORT, 

NPY INT, NPY UINT, NPY LONG, NPY ULONG, NPY LONGLONG, 

NPY ULONGLONG, NPY FLOAT, NPY DOUBLE, NPY LONGDOUBLE, 

NPY CFLOAT, NPY CDOUBLE, NPY CLONGDOUBLE, NPY DATETIME, 
NPY TIMEDELTA, NPY OBJECT, NPY STRING, NPY UNICODE, NPY VOID 


2.2.2.3 答案 : 从 0 开始 创建 一 个 ufunc 
In [ ]: 


# The elementwise function 


cdef void mandel single point(double complex *z in, 
double complex *c in, 


double complex *z out) nogil: 


The Mandelbrot iteration 


dk db dt 


Some points of note: 


Hence, the ``nogil``. 


dk db dt dt dt dt dk dt dt dt dk Gk Gk 


cdef double complex z = z in[0] 
cdef double complex c = c in[0] 
cdef int k # the integer we use in the for loop 


# Straightforward iteration 


for k in range(100): 
Zi Sh Ath, Sa 
if z.real**2 + z.imag**2 > 1000: 
break 


# Return the answer for this point 
z out[0] = z 


4 Boilerplate Cython definitions 
# You don't really need to read this part, it just pulls in 
# stuff from the Numpy C headers. 


cdef extern from "numpy/arrayobject.h": 


void import array() 

ctypedef int npy intp 

cdef enum NPY TYPES: 
NPY CDOUBLE 


cdef extern from "numpy/ufuncobject.h": 


void import ufunc() 


ctypedef void (*PyUFuncGenericFunction)(char**, npy intp*, 


It's *NOT* allowed to call any Python functions here. 


The Ufunc loop runs with the Python Global Interpreter Loc! 


- And so all local variables must be declared with >” cdef 


- Note also that this function receives *pointers* to the dal 
the "traditional" solution to passing complex variables ar( 


npy- 


object PyUFunc FromFuncAndData(PyUFuncGenericFunction* func, vc 


char* types, int ntypes, int nin, int nout, 
int identity, char* name, char* doc, int c) 


void PyUFunc DD D(char**, npy intp*, npy intp*, void*) 


# Required module initialization 

import array() 

import ufunc() 

# The actual ufunc declaration 

cdef PyUFuncGenericFunction loop func[1] 
cdef char input output types[3] 

cdef void *elementwise funcs[1] 

loop func[0] = PyUFunc DD D 

input output types[0] 


input output types[1] 
input output types[2] 


NPY CDOUBLE 
NPY CDOUBLE 
NPY CDOUBLE 


elementwise funcs[0] = «void*»mandel single point 


mandel - PyUFunc FromFuncAndData( 
loop. func, 
elementwise funcs, 
input output types, 
1, # number of supported input types 
2, # number of input args 
1, # number of output args 
©, # "identity" element, never mind this 
"mandel", # function name 
"mandel(z, c) -> computes iterated z*z + c", £ docstring 
0 # unused 


) 


In []: 





import numpy as np 

import mandel 

np.linspace(-1.7, 0.6, 1000) 
np.linspace(-1.4, 1.4, 1000) 
x[None,:] + 1j*y[:,None] 
mandel.mandel(c, c) 


NOX x 


import matplotlib.pyplot as plt 
plt.imshow(abs(z)**2 < 1000, extent=[-1.7, 0.6, -1.4, 1.4]) 


plt.gray() 
plt.show() 





一 1].3 一 1.0 —0.5 0.0 0.5 


笔记 : 大 多 数 模板 可 以 由 下 列 Cython 模 块 来 自动 完成 : 
http://wiki.cython.org/MarkLodato/CreatingUfuncs 


一 些 可 接受 的 输入 类 型 
例如 : 支持 小 数 点 后 一 位 及 两 位 两 个 准确 度 版 本 
In []: 


cdef void mandel single point(double complex *z in, 
double complex *c in, 
double complex *z out) nogil: 


cdef void mandel single point singleprec(float complex *z in, 
float complex *c in, 
float complex *z out) nog: 


cdef PyUFuncGenericFunction loop funcs[2] 
cdef char input output types[3*2] 
cdef void *elementwise funcs[1*2] 


loop funcs[0] = PyUFunc DD D 

input output types[0] NPY CDOUBLE 

input output types[1] NPY CDOUBLE 

input output types[2] NPY CDOUBLE 

elementwise funcs[0] = «void*»mandel single point 


loop funcs[1] = PyUFunc FF F 


input output types[3] - NPY CFLOAT 
input output types[4] - NPY CFLOAT 
input output types[5] = NPY CFLOAT 


elementwise funcs[1] = «void*»mandel single point singleprec 


mandel - PyUFunc FromFuncAndData( 
loop. func, 
elementwise funcs, 
input output types, 
2, # number of supported input types <---------------- 
2, # number of input args 
1, # number of output args 
©, # “identity element, never mind this 
"mandel", # function name 
"mandel(z, c) -> computes iterated z*z + c", # docstring 
© # unused 





2.2.2.4 | 3i ufuncs 


ufunc 


output = elementwise function(input) 


output 和 input 都 可 以 只 是 一 个 数组 元 素 。 


广义 ufunc 


output 和 input 可 以 是 有 固定 维度 数 的 数组 


例如 ， 和 矩阵 迹 〈 对 象 线 元 素 的 sum ) 
In T: 


input shape - (n, n) 


output shape - () i.e. scalar 
(n, n) -» () 
和 矩阵 乘积 : 


In []: 


input 1 shape - (m, n) 
input 2 shape - (n, p) 
output shape = (m, p) 


(m, n), (n, p) eL (m, p) 

e 这 是 广义 Ufunc 的 "签名 " 

e g-ufunc 发 挥 作用 的 维度 是 “核心 维度 ” 
Numpy 中 的 状态 


。g-ufuncs 已 经 在 Numpy 中 .… 
e 新 的 可 以 用 PyUFunc. FromFuncAndDataAndSignature 来 创建 
。... 但 是 ， 除 了 测试 外 ， 我 们 不 会 配置 公用 的 g-ufuncs，ATM 


In [4]: 


import numpy.core.umath tests as ut 
ut.matrix multiply.signature 


Out[4]: 


(m, n), (n, p) -»(m,p)' 


In [5]: 
x - np.ones((10, 2, 4)) 
y - np.ones((10, 4, 5)) 


ut.matrix multiply(x, y).shape 


Out[5]: 


(10, 2, 5) 


e 后 两 个 维度 成 为 了 核心 维度 ， 并 且 根 据 每 个 签名 去 修改 
e 否则 ，g-ufunc“ 按 元 素 级 "运行 


e 这 种 方式 的 矩阵 乘法 对 一 次 在 许多 小 矩阵 是 非常 有 用 
广义 ufunc 循 环 
矩阵 相 乘 (m,n),(n,p) -&gt; (m,p) 
In [ T: 


void gufunc loop(void **args, int *dimensions, int *steps, void *d: 
{ 
char *input 1 (char*)args[0]; /* these are as previously */ 
char *input 2 (char* )args[1]; 
char *output = (char*)args[2]; 


int input 1 stride m 
int input 1 stride n 
int input 2 strides n 


steps[3]; /* strides for the core dimer 
steps[4]; /* are added after the non-c« 
steps[5]; /* steps */ 


int input 2 strides p steps[6]; 
int output strides n - steps[7]; 
int output strides p - steps[8]; 


int m - dimension[1]; /* core dimensions are added after */ 
int n - dimension[2]; /* the main dimension; order as in */ 
int p - dimension[3]; /* signature */ 

int i; 


for (i = 0; i < dimensions[0]; ++i) { 
matmul_for_strided_matrices(input_1, input_2, output, 
strides for each array...); 


input_1 += steps[0]; 
input_2 += steps[1]; 
output += steps[2]; 





2.2.3 互 操 性 功能 


2.2.3.1 多 维度 类 型 数据 贡献 
假设 你 


写 一 个 库 处 理 (多 维度 ) 二 进 制 数据 ， 
想 要 它 可 以 用 Numpy 或 者 其 他 库 来 简单 的 操作 数据 ， 
.… 但 是 并 不 像 依 赖 Numpy。 


目前 ， 三 个 解决 方案 : 


e “|HAY” buffer O 
e 数组 接口 
e “新 的 ”buffer 接口 (PEP 3118) 


1. 
2. 
3. 


2.2.3.2 IH buffer iw 


只 有 1-D buffers 

没有 数据 类 型 信息 

C- 级 接口 ; PyBufferProcs tp as buffer 在 类 型 对 象 中 
但 是 它 被 整合 在 Python 中 〈 比 如 ， 字 符 支 持 这 个 协议 ) 

使 用 PIL(Python Imaging Library) 的 小 练习 : 

也 可 以 看 一 下 pilbuffer.py 


In []: 


import Image 

data = np.zeros((200, 200, 4), dtype=np.int8) 

data[:, :] = [255, 0, 0, 255] # Red 

# In PIL, RGBA images consist of 32-bit integers whose bytes are [Ft 
data - data.view(np.int32).squeeze() 

img - Image.frombuffer("RGBA", (200, 200), data) 
img.save('test.png') 


Q: 检查 一 下 如 果 data 修改 的 话 ， 再 保存 一 下 img 看 一 下 会 发 生 什 么 。 





2.2.3.3 旧 的 buffer 协 议 


In [9]: 


import numpy as np 

# import Image 

from PIL import Image 

# Let's make a sample image, RGBA format 


x = np.zeros((200, 200, 4), dtype-np.int8) 


254 # red 
255 # opaque 


xo 
ceo] 


data = x.view(np.int32) # Check that you understand why this is OK 


img - Image.frombuffer("RGBA", (200, 200), data) 
img.save('test.png') 


# 

# Modify the original data, and save again. 

# 

# It turns out that PIL, which knows next to nothing about Numpy, 
# happily shares the same data. 

# 


x[:,:,1] = 254 
img.save('test2.png') 


Ki TE 





/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/si! 
frombuffer(mode, size, data, 'raw', mode, O, 1) 


SSS 








2.2.3.4 数组 接口 协议 


多 维度 buffers 
存在 数据 类 型 信息 


Numpy- 特 定 方 法 ; BIEN RA 〈 不 过 不 会 消失 ) 
然而 ， 没 有 整合 在 Python 中 


也 可 以 看 一 下 : xX 


档 : http://docs.scipy.org/doc/numpy/reference/arrays.interface.html 


In [8]: 


x = np.array([[1, 2], [3, 4]]) 
x. . array interface . 


Out[8]: 


('data': (4298825184, False), 
‘descr’: pots c s8 ls 
'shape': (2, 2), 

'strides': None, 
'typestr': '«i8', 
'version': 3) 


In [11]: 


# import Image 

from PIL import Image 

img - Image.open('data/test.png') 
img. (array interface . 


Out[11]: 


{'data': '\xfe\xO0O\x00O\xff\xfe\x00\x00 
'shape': (200, 200, 4), 


'typestr': '|u1'} 
In [12]: 
x = np.asarray(img) 
x.shape 
Out[12]: 


(200, 200, 4) 


In [13]: 


x.dtype 


... \Xff\xfe\xO00\xO0\xff', 


Out[13]: 


dtype('uint8') 
笔记 : 一 个 对 C 更 友好 的 数组 接口 变 体 也 被 定义 出 来 了 。 
2.2.4 数组 的 兄弟 : chararray、maskedarray、matrix 


2.2.4.1 chararray : : 向 量化 字符 操作 
In [14]: 


x = np.array(['a', ' bbb', ' ccc']).view(np.chararray) 


x.Istrip(' ') 


Out[14]: 
chararray(['a', 'bbb', 'ccc'], 
dtype='|S5') 
In [15]: 
x.upper() 
Out[15]: 
chararray(['A', ' BBB', ' CCC'], 
dtype='|S5') 


笔记 : .view() 有 另 一 个 含义 : 它 将 一 个 ndarray 变 成 专门 的 ndarray 子 类 的 一 个 
实例 
2.2.4.2 masked arraytk KAGE 


Masked arrays 是 有 缺失 或 无 效 条 目的 数组 。 
例如 ， 假 如 我 们 有 一 个 第 四 个 条 目 无 效 的 数组 : 
In [16]: 


x - np.array([1, 2, 3, -99, 5]) 
描述 这 个 数组 的 一 个 方式 是 创建 masked array : 
In [17]: 


mx = np.ma.masked array(x, mask=[0, ©, ©, 1, 0]) 


Out[17]: 


masked array(data 
mask 
fill value 


[1 2 3 -- 5], 
[False False False True False], 
999999) 


Masked 平 均 数 会 忽略 masked 数 据 : 
In [18]: 


mx.mean( ) 
Out[18]: 
2.75 
In [19]: 
np.mean(mx) 


Out[19]: 


2.75 


警告 : TEHUSBENumpyBZiImask, GIRO, np.dot ， 因 此 ， 请 检查 返回 
的 类 型 。 


masked_array 返回 原始 数组 的 一 个 视图 : 
In [20]: 


mx[1] = 9 


Out[20]: 


array([ 1, 9, 3, -99, 51 


2.2.4.2.1 mask 
你 可 以 通过 赋值 来 修改 mask : 
In [21]: 


mx[1] = np.ma.masked 
mx 


Out[21]: 


masked array(data 
mask 
fill value 


Ei 
[False True False True False], 
999999) 


通过 赋值 可 以 清除 mask : 
In [22]: 


mx[1] = 9 
mx 


Out[22]: 


masked array(data 
mask 
fill value 


[19 3 -- 5], 
[False False False True False], 
999999) 


mask 也 可 以 直接 访问 : 
In [23]: 


mx.mask 


Out[23]: 

array([False, False, False, True, False], dtype-bool) 
masked 条 目 可 以 通过 填 人 一 个 给 定 值 来 变 回 一 般 的 数组 : 
In [24]: 


x2 = mx.filled(-1) 
x2 


Out[24]: 

array([ 1, 9, 3, -1, 5]) 
mask 也 可 以 被 清除 : 
In [25]: 


mx.mask - np.ma.nomask 
mx 


Out[25]: 


masked array(data 
mask 
fill value 


[1 9 3 -99 5], 
[False False False False False], 
999999) 


2.2.4.2.2 领域 相关 的 函数 
masked 数 组 包 也 包含 一 些 领 域 相关 的 函数 : 
In [26]: 


np.ma.log(np.array([1, 2, -1, -2, 3, -5])) 


Out[26]: 
masked array(data = [0.0 0.6931471805599453 -- -- 1.09861228866810! 
mask - [False False True True False True], 
fill value = 1e+20) 











笔记 : 对 于 高 效 无 缝 处理 数 组 中 的 缺失 值 的 支持 将 在 Numpy 1.7 中 出 现 。 现 在 还 在 
优化 中 ! 


例子 : Masked 统 计 

加 拿 大 的 护林 员 在 计算 1903-1918 年 野兔 和 猴 独 的 数量 时 有 些 心烦 意 乱 ， 数 字 经 党 
He, (尽管 胡 蔓 卜 农场 主 不 断 的 警告 。) 计算 随 着 时 间 推 移 的 平均 数 ， 忽 略 无 效 
数据 。 


In [4]: 


data = np.loadtxt('data/populations.txt') 
populations - np.ma.masked array(data[:,1:]) 
year - data[:, 0] 


bad years - (((year »- 1903) & (year «- 1910)) 
| ((year >= 1917) & (year <= 1918))) 
# '&' means 'and' and '|' means 'or' 
populations[bad years, 0] = np.ma.masked 
populations[bad years, 1] = np.ma.masked 


populations.mean(axis-0) 


Out[4]: 


masked array(data = [40472.72727272727 18627.272727272728 42400.0], 
mask = [False False False], 
fill value = 1e+20) 


1 
In [5]: 





populations.std(axis-0) 


Out[5]: 


masked array(data = [21087.656489006717 15625.799814240254 3322.50t 
mask - [False False False], 
fill value = 1e+20) 
[n e——————'ÉáÓááe mE 
注意 ，Matplotlib 了 解 masked 数 组 : 
In [8]: 





plt.plot(year, populations, 'o-') 


Out[8]: 


[xmatplotlib.lines.Line2D at 0x10565f250>, 
«matplotlib.lines.Line2D at 0x10565f490>, 
«matplotlib.lines.Line2D at 0x10565f650>] 








2.2.4.3 recarray : 仅仅 方便 
In [9]: 


arr = np.array([('a', 1), ('b', 2)], dtype-[('x', 'S1'), ('y', int, 
arr2 - arr.view(np.recarray) 
arr2.x 


d = Z 
Out[9]: 





chararray(['a', 'b'], 
dtype='|S1i') 


In [10]: 


arr2.y 


Out[10]: 


array([1, 2]) 


2.2.4.4 矩阵 : 方便 ? 


e 通常 是 2-D 
e 

o 是 矩阵 的 积 ， 不 是 元 素 级 的 积 
In [11]: 


np.matrix([[1, ©], [9, 1]]) * np.matrix([[1, 2], [3, 4]]) 


Out[11]: 


matrix([[1, 2], 
[3, 4]]) 


2.2.9 4555 


ndarray 的 剖析 : data, dtype, 7K 

BARA : 元 素 级 操作 ， 如 何 常 见 一 个 新 的 通用 函数 
Ndarray 子 类 

整合 其 他 工具 的 多 种 buffer 接 口 

最 近 的 补充 : PEP 3118， 广 义 ufuncs 


2.2.6 为 Numpy/Scipy 做 贡献 


看 一 下 这 篇 教程 http://www.euroscipy.org/talk/882 


2.2.6.1 为 什么 


。“ 这 有 个 bug?” 

。“ 我 不 理解 这 个 要 做 什么 ?” 

。“ 我 有 这 个 神器 的 代码 。 你 要 吗 ?” 
e “我 需要 帮助 ! 我 应 该 怎么 办 ?” 


2.2.6.2 报告 bugs 


。 Bug 跟 踪 (推荐 这 种 方式 ) 


o http://projects.scipy.org/numpy 

o http://projects.scipy.org/scipy 

o 点击“ 注册” 链接 获得 一 个 帐号 
e 邮件 列表 ( scipy.org/Mailing Lists ) 


o 如 果 你 不 确定 
o 在 一 周 左右 还 没有 任何 回复 ?去 开 一 个 bug ticket 吧 。 


2.2.6.2.1 好 的 bug 报 告 


Title: numpy.random.permutations fails for non-integer arguments 
I'm trying to generate random permutations, using numpy.random.permutations 


When calling numpy.random.permutation with non-integer arguments it fails with a 
cryptic error message:: 


>>> np.random.permutation(12) 
array o uw c4 T1002» 0B d xq oes a, Obs 
>>> np.random.permutation(12.) 
Traceback (most recent call last): 
File "«stdin»", line 1, in «module» 
File "mtrand.pyx", line 3311, in mtrand.RandomState.permutation 
File "mtrand.pyx", line 3254, in mtrand.RandomState.shuffle 
TypeError: len() of unsized object 


Ki ay 
This also happens with long arguments, and so 


np.random.permutation(X.shape[0]) where X is an array fails on 64 bit windows 
(where shape is a tuple of longs). 


It would be great if it could cast to integer or at least raise a proper error for non- 
integer types. 


I'm using Numpy 1.4.1, built from the official tarball, on Windows 64 with Visual 
studio 2008, on Python.org 64-bit Python. 


1. 你 要 做 什么 ? 
2. 重 现 bug 的 小 代码 段 (如 果 可 能 的 话 ) 
o 实际 上 发 生 了 什么 
o 期 望 发 生 什 么 
3. 平台 (Windows / Linux / OSX, 32/64 bits, x86/PPC, ...) 
4. Numpy/Scipy 的 版 本 


In [2]: 
print np. version . 
1.9.2 


检查 下 面 的 文件 是 你 所 期 望 的 
In [3]: 


print np. file _ 


/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/si! 
«j — B 








以 免 你 想 要 旧 / 损 坏 的 Numpy 安 装 在 哪里 
如 果 不 确定 ， 试 着 删除 现 有 的 Numpy 安 装 文件 ， 并 且 重 新 安装 .… 


2.2.6.3 为 文档 做 贡献 


1. 文档 编辑 器 


o http://docs.scipy.org/numpy 
o 注册 
= 订阅 Scipy-dev 邮 件 列表 ( 仅 限 订阅 者 ) 
w 邮件 列表 有 问题 : 你 可 以 发 邮件 
w 但 是 : 你 可 以 关闭 邮件 送 达 
= 在 http://mail.scipy.org/mailman/listinfo/scipy-dev 底部 “改变 你 的 
订阅 选项 ” 
a 给 @ scipy-dev 邮件 列表 发 一 封 邮件 ; 要 求 激活 : 


To: [email protected] 
Hi, 
I'd like to edit Numpy/Scipy docstrings. My account is XXXXX 
Cheers, N. N. 


o 检查 一 下 风格 指南 : 
m http://docs.scipy.org/numpy/ 
o 不 要 被 吓 住 ; 要 修补 一 个 小 事情 ， 就 修补 它 
o 编辑 
2. 编辑 源码 发 送 补丁 《和 bug 一 样 ) 
3. 向 邮件 列表 抱怨 


2.2.6.4 贡献 功能 


1. 在 邮件 列表 上 询问 ， 如 果 不 确定 应 该 它 应 该 在 哪里 
2. 写 一 个 补丁 ， 在 bug 跟 踪 器 上 添加 一 个 增强 的 ticket 
3. 或 者 ， 创 建 一 个 实现 了 这 个 功能 的 Git 分 支 + 添加 增强 ticket。 


o 特别 是 对 于 大 的 /扩散 性 的 功能 添加 
o http://projects.scipy.org/numpy/wiki/GitMirror 
o http://www.spheredev.org/wiki/Git for the lazy 


In []: 


4 克隆 numpy 仓 库 
git clone --origin svn http://projects.scipy.org/git/numpy.git num 
cd numpy 


# 创建 功能 分 支 
git checkout -b name-of-my-feature-branch svn/trunk 


<edit stuff> 
git commit -a 
El zm um 


e 在 http://github.com (或 者 其 他 地 方 ) 创建 一 个 帐号 
。 @ Github 创 建 一 个 新 仓库 
e. 将 你 的 工作 推送 到 github 


In]: 





git remote add github git@github : YOURUSERNAME/YOURREPOSITORYNAME . g: 
git push github name-of-my-feature-branch 


EJE) 
2.2.6.5 如 何 才 助 ， 总 体 而 


e 永远 欢迎 修补 bug | 
o 什么 让 你 最 恼怒 
o 浏览 一 下 跟踪 器 
。 文档 工作 
o API 文 档 : 改善 文档 字符 串 
m 很 好 的 了 解 了 一 些 Scipy 模 块 
o 用 户 指南 
m 最 终 需 要 完成 
a 想 要 想 一 下 ?看 一 下 目录 http://scipy.org/Developer_Zone/UG_Toc 
e. 在 沟通 渠道 上 询问 : 
o numpy-discussion 列表 
o scipy-dev 列表 


In [1]: 





Dll 


?$matplotlib inline 
import numpy as np 


SciPy Lecture Notes 中 文 版 


2.2 高 级 Numpy 305 


2.3 代码 除 错 


作者 : Gaél Varoquaux 
这 篇 教程 探索 了 更 好 的 理解 代码 基础 、 寻 找 并 修复 bug 的 工具 。 


这 部 分 内 容 并 不 是 特别 针对 于 科学 Python 社区 ， 但 是 我 们 将 要 采用 的 策略 是 专门 针 
对 科学 计算 量 身 定制 的 。 


先决 条 件 


e Numpy 

e |Python 

e nosetests (http://readthedocs.org/docs/nose/en/latest/) 
e pyflakes (http://pypi.python.org/pypi/pyflakes) 

e gdb 对 C-debugging 部 分 。 


章节 内 容 


e 避免 bugs 
o 避免 麻烦 的 最 佳 代码 实践 
o pyflakes : 快速 静态 分 析 
m 在 当前 编辑 的 文件 上 运行 pyflakes 
a 随 着 打字 进行 的 拼写 检查 器 整合 
e 查 错 工作 流 
e 使 用 Python 除 错 器 
o 激活 除 错 器 
» 事后 剖析 
m 逐步 执行 
m 启动 除 错 器 的 其 他 方式 
o 除 错 器 命令 与 交互 
m 在 除 错 器 中 获得 帮助 
e 使 用 gdb 排 除 代 码 段 的 错误 


2.3.1 避免 bugs 


2.3.1.1 避免 矿 烦 的 最 佳 代 码 实 践 
Brian Kernighan 


“每 个 人 都 知道 除 错 比 从 需 开 始 写 一 个 程序 难 两 倍 。 因 此 ， 如 果 当 你 写 程序 时 足够 陪 
明 ， 为 什么 你 不 对 它 进行 除 错 呢 ?” 


e 我 都 会 写 出 有 错误 的 代码 。 接 收 这 些 代 码 。 义 理 这 些 代 码 。 
e 写 代 码 时 记得 测试 和 除 错 。 
e 保持 简单 和 直接 (KISS) 。 


o 能 起 作用 的 最 简单 的 事 是 什么 ? 

e 不 要 重复 自身 (DRY) 。 
o 每 一 个 知识 碎片 都 必须 在 系统 中 有 一 个 清晰 、 权 威 的 表征 
o 变量 、 算 法 等 等 

e a (HE) 

e 给 变量 、 男 数 和 模块 有 意义 的 名 字 (而 不 是 数学 名 字 ) 


2.3.1.2 pyflakes : 快速 静态 分 析 

在 Python 中 有 一 些 静态 分 析 ; 举 几 个 例子 
e pylint 

e pychecker 

e pyflakes 


pep8 
flake8 


这 里 我 们 关注 pyflakes ， 它 是 最 简单 的 工具 。 


e 快速 、 简 单 
e 识别 语法 错误 、 没 有 imports、 名 字 打 印 打 错 。 


另 一 个 好 的 推荐 是 flake8 工具 ， 是 pyflakes 和 pep8。 因 此 ， 除 了 pyflakes 捕 捉 错 
误 类 型 外 ，flake8 也 可 以 察 党 对 PEP8 风 格 指南 建议 的 违背 。 


强烈 推荐 在 你 的 编辑 器 或 IDE 整 合 pyflakes (或 flake8)， 确 实 可 以 产 出 生产 力 的 收 


o 


2.3.1.2.1 在 当前 编辑 文件 上 运行 pyflakes 


你 可 以 在 当前 缓存 器 中 绑 定 一 个 键 来 运行 pyflakes。 
e 在 kate 中 
o 菜单 : 设 定 -> 配置 kate 
o 在 插件 中 启用 “外 部 ” 
o 在 外 部 工具 ， 添加 pyflakes : 


In []: 


kdialog --title "pyflakes %filename" --msgbox "$(pyflakes %filename 





e 在 TextMate 中 
o 菜单 : TextMate -> 偏好 -> 高 级 -> Shell 变 量 ， 添 加 shell 变 量 : 


In []: 


TM PYCHECKER-/Library/Frameworks/Python.framework/Versions/Current, 
sj — H8 








- 然后 ctrl-Sshift-V 被 绑 定 到 pyflakes 报 告 


。 在 vim 中 
o 在 你 的 vimrc 中 (将 F5 绑 定 到 pyflakes): 


In [ ]: 
autocmd FileType python let &mp = 'echo "*** running % ***" ; pyflé 
autocmd FileType tex,mp,rst,python imap <Esc>[15~ <C-0>:make! 4M 


autocmd FileType tex,mp,rst,python map <Esc>[15~ :make!^M 
autocmd FileType tex,mp,rst,python set autowrite 


a] 





。 在 emacs 中 
o 在 你 的 emacs 中 (将 F5 绑 定 到 pyflakes): 


In []: 


(defun pyflakes-thisfile () (interactive) 
(compile (format "pyflakes %s" (buffer-file-name))) 
) 


(define-minor-mode pyflakes-mode 
"Toggle pyflakes mode. 
With no argument, this command toggles the mode. 
Non-null prefix argument turns on the mode. 
Null prefix argument turns off the mode." 
;; The initial value. 
nil 
;; The indicator for the mode line. 
" Pyflakes" 
;; The minor mode bindings. 
'( C([f5] . pyflakes-thisfile) ) 


(add-hook 'python-mode-hook (lambda () (pyflakes-mode t))) 


2.3.1.2.2 随 着 打字 进行 的 拼写 检查 器 整合 
e 在 vim 中 


o 使 用 pyflakes.vim 插 件 : 
1. Mhttp://www.vim.org/scripts/script.php?script_id=2441 下 载 zip 文 件 


2. 将 文件 提取 到 ~/.vim/ftplugin/python 
3. 确保 你 的 vimrc 的 filetype 插 件 的 缩 进 是 开启 的 


lef (obs)[:] 
eturn self. log emissionprob[:, obs].T 







o 或 者 : 使 用 syntastic 插 件 。 这 个 插件 也 可 以 设置 为 使 用 flake8， 人 处 理 实时 检 
查 许多 其 他 语言 。 
name ”== We 
data = 10ad_datal exercises 
min: Eg data 
‘max: i data 


N debug file.pu 
261 at least tuo spaces before inline comment 


e 在 emacs 中 





o 使 用 flymake 模 式 以 及 pyflakes, 文档 
TEhttp://www.plope.com/Members/chrism/flymake-mode : 在 你 的 .emacs 
文件 中 添加 下 来 代码 : 


In []: 


(when (load "flymake" t) 
(defun flymake-pyflakes-init () 
(let* ((temp-file (flymake-init-create-temp-buffer-copy 
'flymake-create-temp-inplace)) 
(local-file (file-relative-name 
temp-file 
(file-name-directory buffer-file-name)))) 
(list "pyflakes" (list local-file)))) 


(add-to-list 'flymake-allowed-file-name-masks 
' ("NN pyNN'" flymake-pyflakes-init))) 


(add-hook 'find-file-hook 'flymake-find-file-hook) 
Tc 


2.3.2 IR TIF 


如 果 你 确实 有 一 个 非 无 关 紧 要 的 bug， 这 个 时 候 就 是 除 错 策 略 该 介入 的 时 候 。 没 有 
银子 弹 。 但 是 ， 策 略 会 有 帮助 : 
对 于 给 定 问题 的 除 错 ， 最 合适 的 情况 是 当 问题 被 隔离 在 几 行 代码 的 时 候 ， 外 面 是 框架 或 应 用 


al 1] 








eruat cuc ti 测试 案例 ， 可 以 让 代码 每 次 都 失败 。 
2. 分 而 治 。 一 旦 你 有 一 个 测试 加 案例 ， 隔离 错误 的 代码 。 


o 哪个 模块 。 
“ARS EX, 
o 哪 行 代码 。 


=> 隅 离 小 的 可 重复 错误 : 测试 案例 
3. 每 次 只 改变 一 个 事情 并 且 重 新 运行 失败 的 测试 案例 。 


4. 使 用 除 错 器 来 理解 哪里 出 错 了 。 
5. 耐心 的 记 笔 记 。 可 能 会 花 一 些 时 间 。 


笔记 : 一 旦 你 遵从 了 这 个 流程 : 隔离 一 段 可 以 重 现 bug 的 紧密 代码 段 ， 并 且 用 
这 上段 代码 来 修复 bug， 添 加 对 应 代码 到 你 的 测试 套装 。 


o 


2.3.3 使 用 Python 除 错 器 

python 除 错 器 ，pdb: http://docs.python.org/library/pdb.html, 允许 你 交互 的 检查 代 
码 。 

具体 来 说 ， 它 允许 你 : 


e 查看 源 代码 。 

e 在 调用 栈 上 下 游 走 。 
e 检查 变量 值 。 

e 修改 变量 值 。 

e 设置 断 点 。 


print 是 的 ，print 语 句 确实 可 以 作为 除 错 工具 。 但 是 ， 要 检查 运行 时 间 ， 使 用 除 错 
器 通常 更 加 高 效 。 


2.3.3.1 激活 除 错 器 
启动 除 错 器 的 方式 : 


1. 事后 剖析 ， 在 模块 错误 后 启动 除 错 器 。 
2. 用 除 错 器 启动 模块 。 
3. 在 模块 中 调用 除 错 器 。 


2.3.3.1.1 事后 剖析 


情景 : 你 在 IPython 中 工作 时 ， 你 的 到 了 一 个 traceback。 


这 里 我 们 除 错 文件 index_error.py。 当 运行 它 时 ， 抛 出 IndexError 。 输 
入 %debug 进入 除 错 器 。 


In [1]: 


%run index error.py 


IndexError Traceback (most recent c: 
/Users/cloga/Documents/scipy-lecture-notes cn/index error.py in <m 
6 

7 if name == ' main ': 
----> 8 index error() 

9 


/Users/cloga/Documents/scipy-lecture-notes cn/index error.py in inc 
3 def index error(): 

4 lst - list('foobar') 

----> 5 print lst[len(lst)] 

6 

7 if name == ' main ': 


IndexError: list index out of range 
ee 
In [2]: 





%debug 


» /Users/cloga/Documents/scipy-lecture-notes cn/index error.py(5)ir 
4 lst = list('foobar') 
----> 5 print lst[len(lst)] 


6 

ipdb» list 
1 """Small snippet to raise an IndexError.""" 
2 


3 def index error(): 
4 lst - list('foobar') 
----> 5 print lst[len(lst)] 


6 

7 if name == ' main ': 
8 index error() 

9 


ipdb» len(lst) 

Sate print lst[len(lst)-1] 

ane quit 
El = ; 
不 用 IPthon 的 事后 剖析 除 错 


在 一 些 情况 下 ， 你 不 可 以 使 用 IPython， 例 如 除 错 一 个 想到 从 命令 行 调 用 的 脚本 。 在 
这 个 情况 下 ， 你 可 以 用 python -m pdb script.py 调用 脚本 : 





$ python -m pdb index error.py 
» /home/varoquau/dev/scipy-lecture-notes/advanced/debugging optimi: 
-> """Small snippet to raise an IndexError.""" 
(Pdb) continue 
Traceback (most recent call last): 
File "/usr/lib/python2.6/pdb.py", line 1296, in main 
pdb. runscript(mainpyfile) 
File "/usr/lib/python2.6/pdb.py", line 1215, in _runscript 
self.run(statement) 
File "/usr/lib/python2.6/bdb.py", line 372, in run 
exec cmd in globals, locals 
File "«string»", line 1, in «module» 
File "index error.py", line 8, in «module» 
index error() 
File "index error.py", line 5, in index error 
print lst[len(lst)] 
IndexError: list index out of range 
Uncaught exception. Entering post mortem debugging 
Running 'cont' or 'step' will restart the program 
» /home/varoquau/dev/scipy-lecture-notes/advanced/debugging optimi: 
-> print lst[len(lst) ] 
(Pdb) 





2.3.3.1.2 逐步 执行 
情景 : 你 相信 模块 中 存在 bug， 但 是 你 不 知道 在 哪 。 
例如 我 们 想 要 除 错 wiener filtering.py。 代 码 确 实 可 以 运行 ， 但 是 ， 过 滤 不 起 作用 。 


e 在 IPython 用 %run -d wiener filtering.p 来 运行 这 个 脚本 : 


In [1]: %run -d wiener filtering.py 

*** Blank or comment 

*** Blank or comment 

*** Blank or comment 

Breakpoint 1 at /home/varoquau/dev/scipy-lecture-notes/advanced/del 
NOTE: Enter 'c' at the ipdb» prompt to start your script. 

> <string>(1)<module>() 





e 用 b 34 在 34 行 设置 一 个 断 点 : 


ipdb» n 

» /home/varoquau/dev/scipy-lecture-notes/advanced/debugging optimi: 
3 

1---» 4 import numpy as np 
5 import scipy as sp 


ipdb» b 34 
Breakpoint 2 at /home/varoquau/dev/scipy-lecture-notes/advanced/del 


«| = 








e FA c(ont(inue)) 继续 运行 到 下 一 个 断 点 


ipdb» c 

» /home/varoquau/dev/scipy-lecture-notes/advanced/debugging optimi: 
33 nni 

2--> 34 noisy_img = noisy_img 
35 denoised_img = local_mean(noisy_img, size=size) 


[E E 





e FA n(ext) 和 s(tep) 在 代码 中 步 进 : next 在 当前 运行 的 背景 下 跳跃 到 下 
一 个 语句 ， 而 step 将 跨 过 执行 的 背景 ， 即 可 以 检查 内 部 函数 调用 : 


ipdb» s 
» /home/varoquau/dev/scipy-lecture-notes/advanced/debugging optimi: 
2 34 noisy img - noisy img 


---» 35 denoised img - local mean(noisy img, size-size) 
36 l var - local var(noisy img, size-size) 

ipdb» n 

» /home/varoquau/dev/scipy-lecture-notes/advanced/debugging optimi: 
35 denoised img - local mean(noisy img, size-size) 

---> 36 l var = local var(noisy img, size=size) 
37 for i in range(3): 


2 
行 ， 并 且 检 查 本 地 变量 : 





e 
on 
应 

| 

[IF 


ipdb» n 
» /home/varoquau/dev/scipy-lecture-notes/advanced/debugging optimi: 
36 l var = local var(noisy img, size-size) 
---> 37 for i in range(3): 
38 res noisy_img - denoised_img 
ipdb> print 1 var 
[[5868 5379 5316 ..., 5071 4799 5149] 
[5013 363 437 ..., 346 262 4355] 
[5379 410 344 ..., 392 604 3377] 


m 
[ 435 362 308 ..., 275 198 1632] 
[ 548 392 290 ..., 248 263 1653] 
[ 466 789 736 ..., 1835 1725 1940]] 

ipdb» print 1 var.min() 

0 


哦 ， 天 啊 ， 只 有 整合 和 0 的 变 体 。 这 就 是 我 们 的 Bug， 我 们 正在 做 整数 算术 。 
EBS 2 iz SHWE 


当 我 们 运行 wiener filtering.py MfFat, HMM PIES : 





In [3]: 


%run wiener filtering.py 


wiener filtering.py:40: RuntimeWarning: divide by zero encountered 
noise level - (1 - noise/l var ) 
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200 MP 
250 
我 们 可 以 将 这 些 警告 变 成 异常 ， 这 使 我 们 可 以 做 事后 剖析 对 他 们 进行 查 错 ， 更 快 的 
找到 我 们 的 问题 : 
In [5]: 
np.seterr(all-'raise') 
Out[5]: 
{'divide': 'warn', 'invalid': 'warn', 'over': 'warn', 'under': 'igr 
E E: 


In [6]: 


%run wiener filtering.py 


316 


2.3 代码 除 错 


FloatingPointError Traceback (most recent c: 
/Users/cloga/Documents/scipy-lecture-notes cn/wiener filtering.py : 
55 pl.matshow(noisy lena[cut], cmap-pl.cm.gray) 

56 

---> 57 denoised lena = iterated wiener(noisy lena) 

58 pl.matshow(denoised lena[cut], cmap-pl.cm.gray) 

59 


/Users/cloga/Documents/scipy-lecture-notes cn/wiener filtering.py : 


38 res = noisy img - denoised img 
39 noise - (res**2).sum()/res.size 
---> 40 noise level = (1 - noise/l var ) 
41 noise level[noise level«0] - 

42 denoised img += noise level*res 


FloatingPointError: divide by zero encountered in divide 


2.3.3.1.3 启动 除 错 器 的 其 他 的 方式 


e 人 为 设置 断 点 抛 出 异常 


如 果 你 发 现 记 录 行 数 设置 断 点 很 枯燥 ， 那 么 你 也 可 以 直接 在 你 想 要 检查 的 位 置 
抛 出 异常 然后 使 用 IPython 的 «debug 。 注 意 这 种 情况 下 ， 你 无 法 步 进 或 继续 


这 个 异常 。 





e 用 nosetests 除 错 测试 失败 


你 可 以 运行 nosetests --pdb 来 进入 异常 除 错 的 事后 剖析 ， 
行 nosetests --pdb-failure 来 用 除 错 器 检查 失败 的 测试 。 


此 外 ， 你 可 以 通过 安装 nose 插 件 ipdbplugin 来 在 nose 中 为 除 错 器 使 用 lpython 界 
面 。 然 后 为 nosetest 传 递 --ipdb 和 --ipdb-failure 选项 。 


e 显 性 的 调用 除 错 器 
在 你 想 要 进入 除 错 器 的 地 方 插入 下 列 几 行 
In []: 


import pdb; pdb.set trace() 


警告 : 当 运 行 nosetests 时 , 会 抓 取 输出 ， 因 此 会 感觉 除 错 器 没 起 作用 要 运行 
nosetests 用 -s 标 记 。 


图 形 化 除 错 器 和 其 他 除 错 器 
e 对 于 在 代码 中 步 进 和 检查 变量 ， 你 会 发 现 用 图 形 化 除 错 器 比如 winpdb， 


e 或 者 ，pudb 是 优秀 的 半 图 形 除 错 器 ， 在 控制 台 带 有 文字 用 户 界 面 。 
e 同时 ，[pydbgn] 项 目 可 能 也 是 值得 一 看 的 。 


2.3.3.2 除 错 器 命 分 和 交互 


(list) 列 出 当前 位 置 的 代码 

u(p) 在 调用 栈 上 向 上 走 

d(own) 在 调用 栈 上 向 下 走 

n(ext) 执行 下 一 行 代 码 ( 并 不 会 进入 新 园 数 ) 
s(tep) 执行 下 一 个 语句 (并 不 会 进入 新 画 数 ) 
bt 打印 调用 栈 

a 打印 本 地 函数 

Icommand 执行 给 到 的 Python 命令 (与 pdb 命令 相对 ) 


警告 : 除 错 器 命令 不 是 Python 代码 


你 不 能 以 想 要 的 方式 命名 变量 。 例 如 ， 如 果 你 无 法 在 当前 的 框架 下 用 相同 的 名 字 履 
盖 变 量 : 用 不 同 的 名 字 ， 然 后 在 除 错 器 中 输入 代码 时 使 用 本 地 变量 。 


2.3.3.2.1 在 除 错 器 中 获得 帮助 
输入 h 或 者 help 来 进入 交互 帮助 : 
In [ ]: 


import pdb; pdb.set trace() 


--Call-- 

» /Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/: 
-> def call (self, result=None): 

(Pdb) help 


Documented commands (type help <topic>): 


EOF bt cont enable jump pp run unt 

a (e continue exit l q 5 until 
alias cl d h list quit step up 
args clear debug help n r tbreak w 

b commands disable ignore next restart u whatis 
break condition down j p return unalias where 


exec pdb 


Undocumented commands: 





2.3.4 用 gdb 除 错 段 错误 (segmentation faults) 


如 果 有 段 错 误 ， 你 不 可 以 用 pdb 对 它 进 行 除 错 ， 因 为 在 进入 除 错 器 之 前 ， 它 会 让 
ee 同样 的 ， 如 果 在 嵌入 Python 的 C 代 码 中 有 一 个 bug， pdb 也 是 没 
用 的 。 对 于 这 种 情况 ， 我 们 可 以 转 用 gnu 除 错 器 ，gdb， 在 Linux 可 用 。 


在 我 们 开始 使 用 gdb 之 前 ， 让 我 们 为 它 添加 一 些 Python 专 有 的 工具 。 对 于 这 个 情 ; 
我 们 可 以 添加 一 些 宏 到 我 们 的 ~/.gbdinit 。 宏 的 最 优 的 选择 取决 于 你 的 Python 
版 本 和 gdb 版 本 。 我 在 gdbint 添 加 了 一 个 简单 的 版 本 ， 但 是 别 客气 读 一 

下 DebuggingWithGdb。 


要 用 gdb 来 除 错 Python 脚本 segfault.py, 我 们 可 以 想 如 下 这 样 在 gdb 中 运行 这 个 脚本 


$ gdb python 


(gdb) run segfault.py 
Starting program: /usr/bin/python segfault.py 
[Thread debugging using libthread db enabled] 


Program received signal SIGSEGV, Segmentation fault. 
.strided byte copy (dst=0x8537478 "N360N343G", outstrides=4, src= 
0x86c0690 «Address 0x86c0690 out of bounds», instrides-32, N-3, 
elsize-4) 
at numpy/core/src/multiarray/ctors.c:365 
365 — FAST. MOVE(Int32); 
(gdb) 


Se m— ————— ÁH—— ÁH— — —ÓÓ—[ 


我 们 得 到 了 一 个 segfault, gdb 捕 捉 到 它 在 C 级 栈 〈 并 不 是 Python 调用 栈 ) 中 进行 事 
后 剖析 除 错 。 我 们 可 以 用 gdb 的 命令 来 对 C 调 用 栈 进 行 除 错 : 


(gdb) up 

#1 0x004af4f5 in copy from same shape (dest=<value optimized out: 
src-«value optimized out», myfunc=0x496780 « strided byte copy: 
swap=0 ) 

at numpy/core/src/multiarray/ctors.c:748 

748 myfunc(dit->dataptr, dest->strides[maxaxis], 


[EE | 








如 你 所 见 ， 现 在 ， 我 们 numpy 的 C 代 码 中 。 我 们 想 要 知道 哪个 Python 代码 触发 了 这 
个 segfault， 因 此 ， 在 栈 上 向 上 搜寻 ， 直 到 我 们 达到 Python 执行 循环 : 


(gdb) up 
#8 0x080ddd23 in call function (f= 
Frame 0x85371ec, for file /home/varoquau/usr/lib/python2.6/site 
at ../Python/ceval.c:3750 
3750 ../Python/ceval.c: No such file or directory. 
in ../Python/ceval.c 


(gdb) up 

49 PyEval_EvalFrameEx (f= 
Frame 0x85371ec, for file /home/varoquau/usr/lib/python2.6/site 
at ../Python/ceval.c:2412 

2412 in ../Python/ceval.c 





—B35:/13tA T Pythoni, Fei el ELS FB'RERRBSPythonsis apa, FAFA 
可 以 找到 对 应 的 Python 代码 : 


(gdb) pyframe 
/home/varoquau/usr/lib/python2.6/site-packages/numpy/core/arrayprir 


(gdb) 
«| zum 
这 是 numpy 代 码 ， 我 们 需要 向 上 走 直 到 找到 我 们 写 的 代码 : 








(gdb) up 
(gdb) up 
434 0x080dc97a in PyEval EvalFrameEx (f= 
Frame 0x82f064c, for file segfault.py, line 11, in print big a! 
1630 ../Python/ceval.c: No such file or directory. 
in ../Python/ceval.c 


(gdb) pyframe 
segfault.py (12): print big array 


国 EE 
对 应 代码 是 : 
In [1]: 





def make big array(small array): 
big array = stride tricks.as strided(small array, 
shape=(2e6, 2e6), strides: 
return big array 


def print big array(small array): 
big array - make big array(small array) 


El E 5 


这 样 segfault 在 打印 big array[-10:] 时 发 生 。 原 因 非 常 简单 ， big_array 被 
分 配 到 程序 内 存 以 外 。 

笔记 : 对 于 在 gdbinit 中 定义 的 Python 特有 命令 ， 读 一 下 这 个 文件 的 源 代 码 。 
总 结 练习 


下 面 的 脚本 是 详细 而 清晰 的 。 它 想 要 回答 一 个 实际 的 有 趣 数值 计算 ， 但 是 ， 它 并 不 
起 作用 .… 你 可 以 为 它 除 错 吗 ? 


Python 源 代码 : to_debug.py 
In []: 





A script to compare different root-finding algorithms. 


This version of the script is buggy and does not execute. It is yol 
to find an fix these bugs. 


The output of the script sould look like: 


Benching 1D root-finder optimizers from scipy.optimize: 
brenth: 604678 total function calls 
brentq: 594454 total function calls 
ridder: 778394 total function calls 
bisect: 2148380 total function calls 


from itertools import product 


import numpy as np 
from scipy import optimize 


FUNCTIONS = (np.tan, # Dilating map 
np.tanh, # Contracting map 
lambda x: x**3 + 1e-4*x, # Almost null gradient at the 
lambda x: x*np.sin(2*x), # Non monotonous function 
lambda x: 1.1*x+np.sin(4*x), # Fonction with several . 


) 


OPTIMIZERS = (optimize.brenth, optimize.brentq, optimize.ridder, 
optimize.bisect) 


def apply optimizer(optimizer, func, a, b): 
""" Return the number of function calls given an root-finding « 
a function and upper and lower bounds. 


return optimizer(func, a, b, full output-True)[1].function cal. 


def bench optimizer(optimizer, param grid): 
""" Find roots for all the functions, and upper and lower bounc 
given and return the total number of function calls. 
return sum(apply optimizer(optimizer, func, a, b) 
for func, a, b in param grid) 


def compare optimizers(optimizers): 

""" Compare all the optimizers given on a grid of a few differt: 
functions all admitting a signle root in zero and a upper and 
lower bounds. 

random a = -1.3 + np.random.random(size-100) 

random b = .3 + np.random.random(size-100) 

param grid = product(FUNCTIONS, random a, random b) 

print "Benching 1D root-finder optimizers from scipy.optimize:' 

for optimizer in OPTIMIZERS: 

print '% 20s: % 8i total function calls' % ( 
optimizer. name , 
bench optimizer(optimizer, param grid) 


if | name == ' main ': 
compare optimizers(OPTIMIZERS) 


«| 








In [1]: 


%matplotlib inline 
import numpy as np 


2.4 代码 优化 


作者 : Gaél Varoquaux 

Donald Knuth 

"过 早 的 优化 是 一 切 罪恶 的 根源 " 

本 章 处 理 用 策略 让 Python 代 码 跑 得 更 快 。 
先决 条 件 


line profiler 
gprof2dot 
来 自 dot 实 用 程序 


章节 内 容 
。 优化 工作 流 


剖析 Python 代码 

o Timeit 

o Profiler 

o Line-profiler 

o Running cProfile 

o Using gprof2dot 
让 代码 更 快 

o 算法 优化 

a SVD 的 例子 

写 更 快 的 数值 代码 

o 其 他 的 链接 


2.4.1 优化 工作 流 


一 人 


. 让 它 工作 起 来 : 用 简单 清晰 的 方式 来 写 代码 。 
. 让 它 可 靠 的 工作 : 写 自 动 的 测试 案例 ， 以 便 真正 确保 你 的 算法 是 正确 的 ， 并 且 


如 果 你 破坏 它 ， 测 试 会 捕捉 到 


通过 剖析 简单 的 使 用 案例 找到 瓶颈 ， 并 且 加 速 这 些 瓶颈 ， 寻 找 更 好 的 算法 或 实 


现 方式 来 优化 代码 。 记 住 在 剖析 现实 例子 时 简单 和 代码 的 执行 速度 需要 进行 一 
个 权衡 。 要 有 效 的 运行 ， 最 好 让 剖析 工作 持续 10s 左 右 。 
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无 测量 无 优化 ! 


测量 : 剖析 ， 计时 
你 可 能 会 惊讶 : 最 快 的 代码 并 不 是 通常 你 想 的 样子 


2.4.2.1 Timeit 


在 IPython 中 ， 使 用 timeit(http://docs.python.org/library/timeit.html) 来 计时 基本 的 操 
作 : 来 计时 基本 的 操作 : ) 


In [2]: 


import numpy as np 
a - np.arange(1000) 


%timeit a ** 2 


The slowest run took 60.37 times longer than the fastest. This cou: 
100000 loops, best of 3: 1.99 us per loop 


In [3]: 


JA 





%timeit a ** 2.1 


10000 loops, best of 3: 45.1 us per loop 


In [4]: 


9timeit a * a 


The slowest run took 12.79 times longer than the fastest. This cou- 
100000 loops, best of 3: 1.86 us per loop 


加 一 
用 这 个 信息 来 指导 在 不 同 策略 间 进 行 选择 。 


笔记 : 对 于 运行 时 间 较 长 的 单元 ， 使 用 «time 来 代替 %timeit ; 它 准 确 性 较 差 但 
是 更 快 。 





2.4.2.2 Profiler 


当 你 有 个 大 型 程序 要 剖析 时 比较 有 用 ， 例 如 下 面 这 个 程序 : 
In []: 


# For this example to run, you also need the 'ica.py' file 


import numpy as np 
from scipy import linalg 


from ica import fastica 


def test(): 
data - np.random.random((5000, 100)) 
u, S, v = linalg.svd(data) 
pca - np.dot(u[:, :10].T, data) 
results - fastica(pca.T, whiten-False) 


if | name == ' main ': 
test() 


笔记 : 这 种 技术 是 两 个 非 监 督学 习 技 术 的 组 合 ， 主 成 分 分 析 (PCA) 和 独立 成 分 分 
Ht (ICA) 。PCA 是 一 种 降 维 技术 ， 即 一 种 用 更 少 的 维度 解释 数据 中 观察 到 的 变异 
的 算法 。1CA 是 一 种 源 信 号 分 离 技术 ， 例 如 分 离 由 多 个 传感器 记录 的 多 种 信号 。 如 
果 传 感 器 比 信号 多 ， 那 么 先进 行 PCA 然 后 ICA 会 有 帮助 。 更 多 的 信息 请 见 : 来 自 
scikits-learn 的 FastICA 例 子 。 


要 运行 它 ， 你 也 需要 下 载 ica 模 块 。 在 IPython 我 们 计时 这 个 脚本 : 
In [B]: 


%run -t demo.py 


IPython CPU timings (estimated): 


User : 6.62 S. 
System : 0.17 S. 
Wall time: 3.72 S. 


/Users/cloga/Documents/scipy-lecture-notes cn/ica.py:65: RuntimeWa! 
W = (u * np.diag(1.0/np.sqrt(s)) * u.T) * W #W = (W * W.T) ^(-: 

/Users/cloga/Documents/scipy-lecture-notes cn/ica.py:90: RuntimeWa! 
lim - max(abs(abs(np.diag(np.dot(W1, W.T))) - 1)) 





并 且 剖 析 它 : 
%run -p demo.py 


301 function calls in 3.746 seconds 


Ordered by: internal time 


ncalls tottime percall cumtime percall filename: 1lineno(funct 


1 3.714 3.714 S215 3.715 decomp_svd.py:15(svd_ 
1 0.019 0.019 3.745 3.745 demo.py:3(«module») 
1 0.007 0.007 0.007 0.007 {method 'random_samp- 

14 0.003 0.000 0.003 0.000 (numpy.core. dotblas 
1 0.001 0.001 0.001 0.001 function base.py:550I 
2 0.000 0.000 0.000 0.000 linalg.py:1116(eigh) 
1 0.000 0.000 3.745 3.745 {execfile} 

2 0.000 0.000 0.001 0.000 ica.py:58( sym decori 
2 0.000 0.000 0.000 0.000 {method 'reduce' of 
1 0.000 0.000 0.000 0.000 ica.py:195(gprime) 

1 0.000 0.000 0.001 0.001 ica.py:69( ica par) 
1 0.000 0.000 3.726 3.726 demo.py:9(test) 

1 0.000 0.000 0.001 0.001 ica.py:97(fastica) 

1 0.000 0.000 0.000 0.000 ica.py:192(g) 

23 0.000 0.000 0.000 0.000 defmatrix.py:290(__at 
4 0.000 0.000 0.000 0.000 twodim base.py:242(d: 
1 0.000 0.000 3.746 3.746 interactiveshell.py:: 

10 0.000 0.000 0.000 0.000 {numpy.core.multiarré 
1 0.000 0.000 3.745 3.745 py3compat .py:279(exe« 
1 0.000 0.000 0.000 0.000 (method 'normal' of 

50 0.000 0.000 0.000 0.000 {isinstance} 

10 0.000 0.000 0.000 0.000 defmatrix.py:66(asmat 

10 0.000 0.000 0.000 0.000 defmatrix.py:244(__ne 
9 0.000 0.000 0.000 0.000 numeric.py:394(asarr: 
1 0.000 0.000 0.000 0.000 methods.py:53( mean; 
1 0.000 0.000 0.000 0.000 {posix.getcwdu} 

4 0.000 0.000 0.000 0.000 {method 'astype' of 
6 0.000 0.000 0.000 0.000 defmatrix.py:338(__mt 
2 0.000 0.000 0.000 0.000 linalg.py:139( commor 
4 0.000 0.000 0.000 0.000 (method 'view' of 'ni 
1 0.000 0.000 0.000 0.000 posixpath.py:329(norr 
5 0.000 0.000 0.000 0.000 {abs} 

1 0.000 0.000 0.000 0.000 {open} 

1 0.000 0.000 0.000 0.000 blas.py:172(find bes! 
1 0.000 0.000 0.000 0.000 blas.py:216( get funt 
1 0.000 0.000 0.000 0.000 syspathcontext.py:641 
3 0.000 0.000 0.000 0.000 (max) 

6 0.000 0.000 0.000 0.000 {method 'transpose' « 
1 0.000 0.000 0.000 0.000 posixpath.py:120(dirr 
2 0.000 0.000 0.000 0.000 linalg.py:101(get lir 
2 0.000 0.000 0.000 0.000 linalg.py:106( makeai 
3 0.000 0.000 0.000 0.000 {numpy.core.multiarré 
6 0.000 0.000 0.000 0.000 defmatrix.py:928(get™ 
1 0.000 0.000 0.000 0.000 syspathcontext.py:57| 
2 0.000 0.000 0.000 0.000 linalg.py:209( asserí 
7 0.000 0.000 0.000 0.000 {issubclass} 

4 0.000 0.000 0.000 0.000 {getattr} 

1 0.000 0.000 0.000 0.000 posixpath.py:358(abs| 
5 0.000 0.000 0.000 0.000 (method 'startswith' 
2 0.000 0.000 0.000 0.000 linalg.py:198( asser! 


2 0.000 0.000 0.000 0.000 
10 0.000 0.000 0.000 0.000 
1 0.000 0.000 0.000 0.000 
1 0.000 0.000 0.000 0.000 
4 0.000 0.000 0.000 0.000 
1 0.000 0.000 0.000 0.000 
1 0.000 0.000 0.000 0.000 
1 0.000 0.000 3.746 3.746 
1 0.000 0.000 0.000 0.000 
4 0.000 0.000 0.000 0.000 
2 0.000 0.000 0.000 0.000 
4 0.000 0.000 0.000 0.000 
工 0.000 0.000 0.000 0.000 
al 0.000 0.000 0.000 0.000 
2 0.000 0.000 0.000 0.000 
6 0.000 0.000 0.000 0.000 
1 0.000 0.000 0.000 0.000 
1 0.000 0.000 0.000 0.000 
11 0.000 0.000 0.000 0.000 
T 0.000 0.000 0.000 0.000 
1 0.000 0.000 0.000 0.000 
工 0.000 0.000 0.000 0.000 
2 0.000 0.000 0.000 0.000 
1 0.000 0.000 0.000 0.000 
3 0.000 0.000 0.000 0.000 
1 0.000 0.000 0.000 0.000 
1 0.000 0.000 0.000 0.000 
1 0.000 0.000 0.000 0.000 
工 0.000 0.000 0.000 0.000 
1 0.000 0.000 0.000 0.000 
1 0.000 0.000 0.000 0.000 
1 0.000 0.000 0.000 0.000 
1 0.000 0.000 0.000 0.000 
1 0.000 0.000 0.000 0.000 
1 0.000 0.000 0.000 0.000 
1 0.000 0.000 0.000 0.000 
al 0.000 0.000 0.000 0.000 
al 0.000 0.000 0.000 0.000 
1 0.000 0.000 0.000 0.000 
1 0.000 0.000 0.000 0.000 





{method 'encode' of 

{method 'get' of ‘dic 
_methods.py:43(_count 
{method 'all' of ‘nur 
linalg.py:124( realn 
syspathcontext.py:54I 
posixpath.py:61( join: 
<string>:1(<module>) 
_methods.py:40(_all) 


linalg.py:111(isComp- 
{method '__array_pre} 
{min} 


py3compat .py:19(encoc 
defmatrix.py:872(get/ 
numerictypes.py:949(. 
{method 'append' of 
numerictypes.py:970(1 
{method 'mean' of 'ni 
{len} 
numeric.py:464(asany: 
{method ' array '«t« 
{method 'rfind' of 'i 
{method 'upper' of ' 
posixpath. py: 251(expé 
{method 'setdefault' 
{method 'diagonal' o! 
lapack.py:239(get laj 
{method 'rstrip' of 
py3compat.py:29(cast. 
posixpath.py:52(isab: 
(method 'split' of 'i 
{method 'endswith' o! 
{sys.getdefaultencod: 
{method 'insert' of 
{method 'remove' of 
{method 'join' of 'ur 
{method 'index' of '- 
misc.py:126( datacop: 
{sys.getfilesystemenc 
{method 'disable' of 


| 


€ 


很 明显 svd (decomp.py 中 ) 占用 了 最 多 的 时 间 ， 换 句 话说， 是 瓶颈 。 我 们 要 找 
到 方法 让 这 个 步骤 跑 的 更 快 ， 或 者 避免 这 个 步骤 〈 算 法 优化 ) 。 在 其 他 部 分 花费 时 


间 是 没 用 的 。 
2.4.2.3 Line-profiler 


profiler 很 棒 : 它 告 诉 我 们 哪个 画 数 花费 了 最 多 的 时 间 ， 但 
用 。 


是 ， 不 是 它 在 哪里 被 调 


关于 这 一 点 ， 我 们 使 用 line_profiler : 在 源 文件 中 ，[email protected] (不 需要 导入 
它 ) 修饰 了 一 些 想 要 用 检查 的 函数 : 


In]: 


@profile 
def test(): 
data = np.random.random( (5000, 100) ) 
u, S, v = linalg.svd(data) 
pca - np.dot(u[: , :10], data) 
results - fastica(pca.T, whiten-False) 


接着 我 们 用 kernprof.py 来 运行 这 个 脚本 ， 开 
B -1l, --line-by-line 和 -v, --view 来 使 用 逐 行 profiler， 并 且 查 看 结果 并 保 
存 他 们 : 


kernprof.py -1 -v demo.py 


Wrote profile results to demo.py.lprof 
Timer unit: 1e-06 s 


File: demo.py 
Function: test at line 5 
Total time: 14.2793 s 


Line # Hits Time Per Hit % Time Line Contents 
5 Qprofile 
6 def test(): 
7 1 19015 19015.0 0.1 data = np.randc 
8 1 14242163 14242163.0 99.7 u, S, V = lina. 
9 1 10282 10282.0 0.1 pca = np.dot(u| 
10 1 7799 7799.0 0.1 results = fast: 





SVD 占 用 了 几乎 所 有 时 间 ， 我 们 需要 优化 这 一 行 。 


2.4.2.4 运行 cProfile 

在 上 面 的 IPython 例 子 中 ，lpython 只 是 调用 了 内 置 的 Python 剖析 

2s cProfile 和 profile 。 如 果 你 想 要 用 一 个 可 视 化 工具 来 处 理 剖 析 器 的 结果 ， 
这 会 有 帮助 。 


python -m cProfile -o demo.prof demo.py 


使 用 -o 开关 将 输入 剖析 器 结果 到 文件 demo.prof 。 


2.4.2.5 使 用 gprof2dot 
如 果 你 想 要 更 加 视觉 化 的 剖析 器 输入 结果 ， 你 可 以 使 用 gprof2dot 工 具 : 
In []: 


gprof2dot -f pstats demo.prof | dot -Tpng -o demo-prof.png 


这 会 生成 下 面 的 图 片 : 


demo:3:<module 


N, 0.5896 


__init__:106:<module> 
0.78% 


(0.01%) 


__init__:128:<module> 
0.58% 


(0.01%) 


basic:6:<module> 
0.52% 
(0.01%) 


1 





这 种 方法 打印 了 一 个 类 似 前 一 种 方法 的 图 片 。 


2.4.3 让 代码 更 快 
一 旦 我 们 识别 出 瓶颈 ， 我 们 需要 让 相关 的 代码 跑 得 更 快 。 
2.4.3.1 算法 优化 


第 一 件 要 看 的 事情 是 算法 优化 : 有 没有 计算 量 更 小 的 方法 或 者 更 好 的 方法 ? 


从 更 高 的 视角 来 看 这 个 问题 ， 对 算法 背后 的 数学 有 一 个 很 好 的 理解 会 有 帮助 。 但 
是 ， 寻 找到 像 将 计算 或 内 存 分 配 移 到 循环 外 这 样 的 简单 改变 ， 来 带 来 巨大 的 收益 ， 
通常 很 困难 。 


2.4.3.1.1 SVD 的 例子 


在 上 面 的 两 个 例子 中 ，SVD - 奇异 值 分 解 - 花费 了 最 多 的 时 间 。 确 实 ， 这 个 算法 的 
计算 成 本 大 概 是 输入 矩阵 大 小 的 $n^3$。 


但 是 ， 在 这 些 例子 中 ， 我 们 并 不 是 使 用 SVD 的 所 有 输出 ， 而 只 是 它 第 一 个 返回 参数 
的 前 几 行 。 如 果 我 们 使 用 scipy 的 sva 实现 ， 我 们 可 以 请 求 一 个 这 个 SVD 的 不 完整 
版 本 。 注 意 scipy 中 的 线性 代数 实现 比 在 numpy 中 更 丰富 ， 应 该 被 优选 选用 。 

In [20]: 


9 timeit np.linalg.svd(data) 


1 loops, best of 3: 4.12 s per loop 


In [21]: 


from scipy import linalg 
%timeit linalg.svd(data) 


1 loops, best of 3: 3.65 s per loop 


In [22]: 


%timeit linalg.svd(data, full matrices-False) 


10 loops, best of 3: 70.5 ms per loop 


In [23]: 


%timeit np.linalg.svd(data, full matrices-False) 


10 loops, best of 3: 70.3 ms per loop 


接 下 来 我 们 可 以 用 这 个 发 现 来 优化 前 面 的 代码 : 
In [24]: 


import demo 


In [27]: 


%timeit demo.test() 


1 loops, best of 3: 3.65 s per loop 


In [28]: 


import demo opt 


In [29]: 


%timeit demo opt.test() 


10 loops, best of 3: 81.9 ms per loop 


真实 的 非 完 整 版 SVD， 即 只 计算 前 十 个 特征 向 量 ， 可 以 用 arpack 来 计算 ， 可 以 
在 scipy.sparse.linalg.eigsh 找到 。 


计算 线性 代数 
对 于 特定 的 算法 ， 许 多 瓶颈 会 是 线性 代数 计算 。 在 这 种 情况 下 ， 使 用 正确 的 方法 来 
解决 正确 的 问题 是 关键 。 例 如 一 个 对 称 和 矩阵 中 的 特征 向 量 问题 比 通用 答 阵 中 更 好 解 


决 。 同 样 ， 更 普通 的 是 ， 你 可 以 避免 矩阵 逆转 ， 使 用 一 些 成 本 更 低 〈 在 数字 上 更 可 
$E) 的 操作 。 


了 解 你 的 计算 线性 代数 。 当 有 疑问 时 ， 查 找 scipy.linalg ， 并 且 用 %timeit 来 
试 一 下 替代 方案 。 


2.4.4 写 更 快 的 数值 代码 


关于 numpy 的 高 级 使 用 的 讨论 可 以 在 高 级 numpy 那 章 ， 或 者 由 van der Walt 等 所 写 
的 文章 NumPy 数 组 : 一 种 高 效 数值 计算 结构 。 这 里 只 是 一 些 经 常会 遇 到 的 让 代码 更 
快 的 小 技巧 。 


。 循 环 向 量化 
找到 一 些 技巧 来 用 numpy 数 组 避免 循环 。 对 于 这 一 点 ， 掩 菩 和 来 引 通常 很 有 


o 


e 广播 
在 数组 合并 前 ， 在 尽 可 能 小 的 数组 上 使 用 广播 。 


e 原 地 操作 
In [30]: 


a = np.zeros(1e7) 


%timeit global a ; a = 0*a 


10 loops, best of 3: 33.5 ms per loop 


/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/si! 


if | name  -- ' main ': 
[i| rcm ee] 
In [31]: 





%timeit global a ; a *- 0 


100 loops, best of 3: 8.98 ms per loop 


注意 : 我 们 需要 在 timeit 中 global a, WEES I, AX, Batt, RRNA 
是 一 个 本 地 变量 。 


e 对 内 存 好 一 点 : 使 用 视图 而 不 是 副本 
复制 一 个 大 数组 和 在 上 面 进行 简单 的 数值 运算 一 样 代 价 昂 贵 : 
In [32]: 


a = np.zeros(1e7) 


/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/si! 


if | name  -- ' main ': 
ps) 
In [33]: 





%timeit a.copy() 


10 loops, best of 3: 28.2 ms per loop 


In [34]: 


%timeit a+ 1 


10 loops, best of 3: 33.4 ms per loop 


。 注意 缓存 作用 


分 组 后 内 存 访问 代价 很 低 : 用 连续 的 方式 访问 一 个 大 数组 比 随 机 访问 快 很 多 。 
这 意味 着 在 其 他 方式 中 小 步 幅 会 更 快 〈 见 CPU 缓存 作用 ) : 


In [35]: 


c = np.zeros((1e4, 1e4), order='C') 


/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/si! 


if | name == ' main ': 
a] = a: 
In [36]: 





%timeit c.sum(axis-0) 


The slowest run took 5.66 times longer than the fastest. This coul 
1 loops, best of 3: 80.9 ms per loop 


[a ccm EMEN ces ent 
In [37]: 





%timeit c.sum(axis-1) 


10 loops, best of 3: 79.7 ms per loop 


In [38]: 


c.strides 


Out[38]: 


(80000, 8) 


这 就 是 为 什么 Fortran 顺 序 或 者 C 顺 序 会 在 操作 上 有 很 大 的 不 同 : 
In [39]: 


a - np.random.rand(20, 2**18) 


In [40]: 


b - np.random.rand(20, 2**18) 


In [41]: 


%timeit np.dot(b, a.T) 


10 loops, best of 3: 23.8 ms per loop 


In [42]: 


c = np.ascontiguousarray(a.T) 


In [43]: 


%timeit np.dot(b, c) 


10 loops, best of 3: 22.2 ms per loop 


注意 ， 通 过 复制 数据 来 绕 过 这 个 效果 是 不 值得 的 : 
In [44]: 


%timeit c = np.ascontiguousarray(a.T) 


10 loops, best of 3: 42.2 ms per loop 


使 用 numexpr 可 以 帮助 自动 优化 代码 的 这 种 效果 。 
。 使 用 编译 的 代码 


一 旦 你 确定 所 有 的 高 级 优化 都 斌 过 了 ， 那 么 最 后 一 招 就 是 转移 热点 ， 即 将 最 花 
费时 间 的 几 行 或 罚 数 编译 代码 。 要 编译 代码 ， 优 先 选项 是 用 使 用 Cython : ca 
以 简单 的 将 Python 代码 转化 为 编译 代码 ， 并 且 很 好 的 使 用 numpy 支 持 来 以 
numpy 数 据 产 出 高 效 代码 ， 例 如 通过 展开 循环 。 


eA, 
= A 


对 于 以 上 的 技巧 ， 剖 析 并 计时 你 的 选择 。 不 要 基于 理论 思考 来 优化 。 
2.4.4.1 其 他 的 链接 
e 如果 你 需要 剖析 内 存 使 用 ， 你 要 应 该 试 试 memory_profiler 
e 如 果 你 需要 剖析 C 扩 展 程 序 ， 你 应 该 用 yep 从 Python 中 试 着 使 用 一 
下 gperftools。 


e 如 果 你 想 要 持续 跟踪 代码 的 效率 ， 上 比如 随 着 你 不 断 向 代码 库 提 交 ， 你 应 该 试 一 
下 : vbench 
e 如 果 你 需要 一 些 交 互 的 可 视 化 为 什么 不 试 一 下 RunSnakeRun 


2.5 SciPy + FAR pE 
In [3]: 


%matplotlib inline 
import numpy as np 


2.5.1 介绍 


(密集 ) 和 矩阵 是 : 

e。 数 据 对 象 

e 存储 二 维 值 数组 的 数据 结构 
重要 特征 : 


e. 一 次 分 配 所 有 项 目的 内 存 
o 通常 是 一 个 连续 组 块 ， 想 一 想 Numpy 数 组 
。 快速 访问 个 项 目 (*) 


2.5.1.1 AAA PEs ? 


e 内 存 ， 增 长 是 n*2 
e 小 例子 〈 双 精度 矩阵 ) : 


In [5]: 


import numpy as np 

import matplotlib.pyplot as plt 

x - np.linspace(0, 1e6, 10) 
plt.plot(x, 8.0 * (x**2) / 1e6, lw=5) 
plt.xlabel('size n') 
plt.ylabel('memory [MB]') 


Out[5]: 


«matplotlib.text.Text at 0x105b08dd0> 

















2.5.1.2 稀疏 和 矩阵 vs. BRIERE 273 3€ 


e 稀疏 和 矩阵 是 一 个 和 矩阵， 巨大 多 数 是 空 的 

e 存储 所 有 的 0 是 浪费 -> 只 存储 非 0 项 目 

e 想 一 下 压缩 

e 有 利 : 巨大 的 内 存 节 省 

e 不 利 : 依赖 实际 的 存储 方案 , (*) 通常 并 不 能 满足 


2.5.1.3 典型 应 用 


e 偏 微 分 方程 (PDES) 的 解 
o 有 限 元 素 法 
o 机 械 工 程 、 电 子 、 物 理 ..…. 
e 图 论 
o (i j 不 是 0 表示 节点 i 与 节点 j 是 联接 的 


2.5.1.4 先决 条 件 
最 新 版 本 的 


numpy 
scipy 

matplotlib (可 选 ) 
ipython (那些 增强 很 方便 ) 


2.5.1.5 Tiii 25 44 n] 3,46 


e matplotlib 中 的 spy() 





2.5.2 存储 机 制 


e scipy.sparse t A E 3 SIL AB re: 


1. 


NONBRON; 


csc matrix: /& 压缩 列 格式 

csr matrix: 压缩 行 格式 

bsr matrix: 块 压缩 行 格式 

lil. matrix: 列表 的 列表 格式 

dok matrix: 值 的 字典 格式 

coo matrix: 座 标 格 式 (BI IJV, 三 维 格式 ) 
dia_matrix: 对 角 线 格式 


。 每 一 个 类 型 适用 于 一 些 任务 
。 许 多 都 利用 了 由 Nathan Belle &BS FER LS C ++ 模块 
e 假设 导入 了 下 列 模块 : 


In [1]: 


import numpy as np 
import scipy.sparse as sparse 
import matplotlib.pyplot as plt 


e 给 Numpy 用 户 的 warning: 
o 使 用 ”的 乘 是 矩阵 相 乘 (点 积 ) 
o 并 不 是 Numpy 的 一 部 分 ! 


a 向 Numpy 本 数 传递 一 个 稀 踢 和 矩阵 希望 一 个 ndarray/ 和 矩阵 是 没 用 的 


2.5.2.1 通用 方法 
e 所 有 scipy.sparse 类 都 是 spmatrix 的 子 类 


o 算术 操作 的 默认 实现 
@ 通常 转化 为 CSR 
w 为 了 效率 而 子 类 履 盖 
o 形状 、 数 据 类 型 设置 /获取 
o JFOS5| 
o 格式 转化 、 与 Numpy 交 互 (toarray(), todense()) 


"m 


mtx.A - 与 mtx.toarray() 相 同 

mtx.T - &i& (与 mtx.transpose() 相 同 ) 
mtx.H - Hermitian (列举 ) 4 E 

mtx.real - FEGA 

mtx.imag - 复 和 矩阵 的 虚 癌 

mtx.size - JES (与 self.getnnz() 相 同 ) 
mtx.shape - 行 数 和 列 数 (元 组 ) 

e 数据 通常 储存 在 Numpy 数 组 中 


O 0000 0 0 


2.5.2.2 FREE 3E 


2.5.2.2.1 对 角 线 格式 (DIA)) 


非常 简单 的 格式 
e 形状 (n_diag, length) 的 密集 Numpy 数 组 的 对 角 线 
o HEKE -> 当 离 主 对 角 线 比较 远 时 会 浪费 空间 
o _data_matrix 的 子 类 (a BUBB TEAS Mat XB FF 3 ) 
e 每 个 对 角 线 的 偏 移 
o 0 是 主 对 角 线 
o 负 偏 移 = 下面 
o 正 偏 移 = Em 
快速 矩阵 * 向 量 (sparsetools) 
快速 方便 的 关于 项 目的 操作 
o 直接 操作 数据 数组 (快速 的 NumPy 机 件 ) 
构建 器 接受 : 
o 密集 矩阵 (数组 ) 
o TAB 
o 形状 元 组 (创建 空 和 矩阵 ) 
o (数据 , 偏 移 ) 元 组 
e 没有 切片 、 没 有 单个 项 目 访问 
用 法 : 
o 非常 专业 
o 通过 有 限 微分 解 偏 微分 方程 
o 有 一 个 迭代 求解 器 THHHHBE2.5.2.2.1.1 示例 


e 创建 一 些 DIA 和 矩阵 : 
In [3]: 


data = np.array([[1, 2, 3, 4]]).repeat(3, axis-0) 
data 


Out[3]: 


array([[1, 2, 3, 4], 
[1, 2, 8, 4], 
[1, 2, 8, 4]]) 


In [6]: 


offsets = np.array([0, -1, 2]) 
mtx = sparse.dia matrix((data, offsets), shape=(4, 4)) 
mtx 


Out[6]: 


«4x4 sparse matrix of type '«type 'numpy.int64'»' 
with 9 stored elements (3 diagonals) in DIAgonal format» 


In [7]: 


mtx.todense() 


Out[7]: 
matrix([[1, 0, 3, 0], 
[1, 2, 6, 4], 
[0, 2, 3, 0], 
[0, 0, 3, 4]]) 


In [9]: 


data - np.arange(12).reshape((3, 4)) * 1 
data 


Out[9]: 


array([[ 1, 2, 3, 4], 
[ 5, 6, 7, 8], 
[oer 1209) 


In [10]: 


mtx = sparse.dia_matrix((data, offsets), shape=(4, 4)) 
mtx.data 


Out[10]: 
array([[ 1, 2, 3, 4], 
le e m Blk 
[ 9, 10, 11, 12]]) 
In [11]: 


mtx.offsets 


Out[11]: 


array([ 0, -1, 2], dtype-int32) 


In [12]: 


print mtx 


m 

© 
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In [13]: 


mtx.todense() 


Out[13]: 


matrix([[ 1, ©, 11, 0]， 
[ 5, 2, 9, 12], 
[9, 6, 3, 9], 
[0, 0, 7, 4]]) 


e 机 制 的 解释 : 
|o: 行 


To o 
WNR OF N 
0 RB 


。 和 矩阵 -向 量 相 乘 
In [15]: 


vec - np.ones((4, )) 
vec 


Out[15]: 

array pelo slate e. 
In [16]: 

mtx * vec 
Out[16]: 

array([ 22.) 19); 9, d1.]) 
In [17]: 


mtx.toarray() * vec 


Out[17]: 


m 
[uoke 


~ ~ ~ ~ 


array([[ 


GOON © 


[ 
[ 


2.5.2.2.2 列表 的 列表 格式 (LIL)) 


e 基于 行 的 联接 列表 
o 每 一 行 是 一 个 Python 列表 (排序 的 ) 非 需 元 素 的 列 索 引 
o 行 存储 在 Numpy 数 组 中 (dtype=np.object) 
o 非 需 值 也 近似 存储 
高 效 增 量 构建 稀 踊 和 矩阵 
e 构建 器 接受 : 
o 密集 和 矩阵 (数组 ) 
o Abt Fe re 
o 形状 元 组 (创建 一 个 空 矩阵 ) 
e 有 灵活 切片 、 高 效 改变 稀 踊 结构 
e 由 于 是 基于 行 的 ， 算 术 和 行 切片 慢 
e。 用 途 : 
o 当 稀 玻 模式 并 不 是 已 知 的 逮 辑 或 改变 
o 例子 : M— T XA XCUE TE ER A BABE HHHH 2.5.2.2.2.1 示例 
e 创建 一 个 空 的 LIL 和 矩阵 : 


In [2]: 


mtx = sparse.lil matrix((4, 5)) 


e. 准备 随机 数据 : 
In [4]: 


from numpy.random import rand 
data - np.round(rand(2, 3)) 
data 


Out[4]: 


array([[ 0., 0. 


。 使 用 象征 所 以 分 配 数 据 : 
In [6]: 


mtx[:2, [1, 2, 3]] = data 
mtx 


Out[6]: 


«4x5 sparse matrix of type '«type 'numpy.float64'»' 
with 3 stored elements in LInked List format» 


In [7]: 


print mtx 


In [8]: 
mtx.todense() 
Out[8]: 


matrix([[ 0. 
mor 
[ 0. 
[ 0. 


OOOrR 
OORO 
OOOrR 


In [9]: 


mtx.toarray() 


Out[9]: 


array([ 


OOOrFR 
OORO 
©O OOP 


~ ~ ~ ~ 


更 多 的 切片 和 索引 : 


In [10]: 


mtx = sparse.lil matrix([[O, 1, 2, 0], [3, ©, 1, 0], [1, 9, 9, 1]]. 


mtx.todense() 


«| ED 








a 





Out[10]: 


matrix([[0, 1, 2, 0], 
[3, ©, 1, 9], 
[1, 0, 0, 1]]) 


In [11]: 


print mtx 


m. 
N 
— 
FRR RON 


In [12]: 


ids 2e 


Out[12]: 


«2x4 sparse matrix of type '«type 'numpy.int64'>' 
with 4 stored elements in LInked List format» 


In [13]: 


mtx[:2, :].todense() 


Out[13]: 


matrix([[0, 1, 2, 0], 
[3, ©, 1, 0]]) 


In [14]: 


mtx[1:2, [0,2]].todense() 


Out[14]: 


matrix([[3, 1]]) 


In [15]: 


mtx. todense() 


Out[15]: 


matrix([[0, 1, 2, 0], 
[3, 0, 1, 0], 
[1, 0, 0, 1]]) 


2.5.2.2.3 值 的 字典 格式 (DOK)) 


e Python 字典 的 子 类 
o 键 是 ( 行 , 列 ) 索引 元 组 (不 允许 重复 的 条 目 ) 
o 值 是 对 应 的 非 需 值 
高 效 增 量 构 建 稀 玩 和 矩阵 
。 构建 器 支持 : 
o 密集 和 矩阵 (数组 ) 
o eit FE E 
o 形状 元 组 (6) 52 22 FB) 
高 效 O(1) 对 单个 元 素 的 访问 
R RAI, NF es Hea 
一 旦 创建 完成 后 可 以 被 高 效 转换 为 coo_matrix 
算术 很 慢 (循环 用 dict.iteritems() ) 
用 法 : 
o 当 稀 疏 模式 是 未 知 的 假设 或 改变 时 


2.5.2.2.3.1 示例 
e 逐个 元 素 创 建 一 个 DOK 和 矩阵 : 
In [16]: 


mtx = sparse.dok matrix((5, 5), dtype=np.float64) 
mtx 


Out[16]: 


<5x5 sparse matrix of type '«type 'numpy.float64'>' 
with © stored elements in Dictionary Of Keys format» 


In [17]: 


for ir in range(5): 
for ic in range(5): 
mtx[ir, ic] = 1.0 * (ir != ic) 
mtx 


Out[17]: 


<5x5 sparse matrix of type '«type 'numpy.float64'>' 
with 20 stored elements in Dictionary Of Keys format» 


In [18]: 


mtx.todense() 


Out[18]: 


matrix([ 


peat et eas 
Ha ees 
See es 
NT ee 
oe aE Gee 
perpen ene 
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[ 
[ 
[ 
[ 
[ 


e 切片 与 素 引 : 
In [19]: 


mtx[1, 1] 


Out[19]: 


In [20]: 


mtx[1, 1:3] 


Out[20]: 


«1x2 sparse matrix of type '«type 'numpy.float64'»' 
with 1 stored elements in Dictionary Of Keys format» 


In [21]: 


mtx[1, 1:3].todense() 


Out[21]: 


matrix([[ O., 1.]]) 


In [22]: 


mtx[[2,1], 1:3].todense() 


Out[22]: 


matrix([[ 1., 0,]， 
[ 0., 1.]]) 


2.5.2.2.4 座 标 格式 (COO)) 


e ERRA ‘ijv sk ‘triplet’ 格式 
o 三 个 NumPy 数 组 : row, col, data 
o data[i] 是 在 (row[i], col[i]) 位 置 的 值 
o 人 允许 重复 值 
e \_data\_matrix 的 子 类 ( 带 有 data BMA METAB 3X) 
ATE Ff Bit RB BY en ER 
e 构建 器 接受 : 
o 密集 矩阵 (数组 ) 
o 稀疏 和 矩阵 
o 形状 元 组 (创建 空 数组 ) 
o (data, ij) 元 组 
与 CSR/CSC 格 式 非常 快 的 互相 转换 
快速 的 矩阵 * 向 量 (sparsetools) 
快速 而 简便 的 逐 项 操作 
o 直接 操作 数据 数组 (快速 NumPy 机 制 ) 


e coe 没有 算术 (BR) 
e H: 
o FER Met xh 8] AIRA Fed 
o 当 转 化 到 其 他 形式 (通常 是 CSR 或 CSC), 重复 的 条 目 被 加 总 到 一 起 
n 有限 元 素 和 矩阵 的 快速 高 效 创建 


2.5.2.2.4.1 示例 
e 创建 空 的 COO 和 矩阵 : 
In [23]: 


mtx = sparse.coo matrix((3, 4), dtype-np.int8) 
mtx.todense() 


Out[23]: 


matrix([[0, ©, ©, 0], 
[0, ©, 0, 6], 
[0, 0, ©, 0]], dtype-int8) 


e 用 (data, ij) 元 组 创建 : 


In [24]: 
row = np.array([0, 3, 1, 0]) 
col = np.array([0, 3, 1, 2]) 


data - np.array([4, 5, 7, 9]) 
mtx = sparse.coo matrix((data, (row, col)), shape=(4, 4)) 
mtx 


Out[24]: 


«4x4 sparse matrix of type '«type 'numpy.int64'>' 
with 4 stored elements in COOrdinate format» 


In [25]: 


mtx.todense() 


Out[25]: 


matrix([[4, ©, 9, 0], 
[0, 7, 0, 6], 
[0, 0, 9, 6], 
[0, 0, 0, 5]]) 


2.5.2.2.5 压缩 稀疏 行 格式 (CSR)) 


e 面向 行 
o 三 个 Numpy 数 组 : indices , indptr , data 
indices 是 列 索 引 的 数组 
data 是 对 应 的 非 需 值 数组 
indptr 指向 行 开始 的 所 以 和 数据 
长 度 是 n_row + 1 ,最 后 一 个 项 目 = 值 数量 = 
indices 和 data 的 长 度 
m i-th 行 的 非 需 值 是 列 素 引 
为 indices[indptr[i]:indptr[i+1]] 的 data[indptr[i]:indpti 
@ 项 目 (ij) 可 以 通过 data[indptr[i]*k] ,KK 是 j 
在 indices[indptr[i]:indptr[i+1]] 的 位 置 来 访问 
o _cs_matrix (常规 CSR/CSC 功能 ) 的 子 类 
o data matrix ( 带 有 data 属性 的 稀疏 矩阵 类 ) 的 子 类 
快速 答 阵 向 量 相 乘 和 其 他 算术 (sparsetools) 
e 构建 器 接受 : 


密集 矩阵 (数组 ) 
稀疏 矩阵 


形状 元 组 (创建 空 和 矩阵 ) 
(data, ij) 元 组 
o (data, indices, indptr) 元 组 
高 效 行 切片 ， 面 向 行 的 操作 
ee A A Fi 45 VT ee i 
用 途 : 
o 实际 计算 (大 多 数 线性 求解 器 都 支持 这 个 格式 ) 


o 
o 
Oo 
o 


2.5.2.2.5.1 示例 
e 创建 空 的 CSR 和 矩阵 : 
In [26]: 


mtx = sparse.csr matrix((3, 4), dtype-np.int8) 
mtx.todense() 


Out[26]: 


matrix([[0, 0, 0, 0], 
[0, ©, 0, 6], 
[0, 0, 0, 0]], dtype-int8) 


e 用 (data, ij) 元 组 创建 : 


In [27]: 
row = np.array([0, ©, 1, 2, 2, 2]) 
col - np.array([0, 2, 2, 0, 1, 2]) 


data - np.array([1, 2, 3, 4, 5, 6]) 
mtx = sparse.csr matrix((data, (row, col)), shape=(3, 3)) 
mtx 


Out[27]: 


«3x3 sparse matrix of type '«type 'numpy.int64'>' 
with 6 stored elements in Compressed Sparse Row format» 


In [28]: 


mtx.todense() 


Out[28]: 


matrix([[1, 0, 2], 
[0, 0, 3], 
[4, 5, 6]]) 


In [29]: 


mtx.data 


Out[29]: 


array([1, 2, 3, 4, 5, 6]) 


In [30]: 


mtx.indices 


Out[30]: 


array([0, 2, 2, ©, 1, 2], dtype=int32) 


In [31]: 


mtx.indptr 


Out[31]: 


array([0, 2, 3, 6], dtype=int32) 


用 (data, indices, indptr) 元 组 创建 : 
In [32]: 


data - np.array([1, 2, 3, 4, 5, 6]) 

indices = np.array([0, 2, 2, ©, 1, 2]) 

indptr = np.array([0, 2, 3, 6]) 

mtx = sparse.csr matrix((data, indices, indptr), shape=(3, 3)) 
mtx.todense() 


Out[32]: 
matrix([[1, 0, 2], 
[0, 0, 3], 
[4, 5, 6]]) 


2.5.2.2.6 压缩 稀疏 列 格式 (CSC)) 


e 面向 列 
o 三 个 Numpy 数 组 : indices 、 indptr 、 data 
o indices zÉÍTS&SIBJZK a 
o data 是 对 应 的 非 需 值 
o indptr 指向 indices 和 data 开始 的 列 
o 长 度 是 n_col + 1 ,最 后 一 个 条 目 = 值 数量 = indices 和 data 的 长 


度 

AUIS GET RS 

为 indices[indptr[i]:indptr[i-1]] BY data[indptr[i]:indptr[i+ 
mE (i,j) 可 以 作为 datafindptr[j]+k] iwi, kei 

在 indices[indptr[j]:indptr[j+1]] 的 位 置 

o cs matrix 的 子 类 (通用 的 CSR/CSC 功能 性 ) 


o 


o 


= data matrix 的 子 类 ( 带 有 data RIERA AEE 3X) 
e 快速 的 矩阵 和 向 量 相 乘 及 其 他 数学 (sparsetools) 
e 构建 器 接受 : 


密集 矩阵 (数组 ) 
稀疏 矩阵 


形状 元 组 (创建 空 和 矩阵 ) 
(data, ij) 元 组 
(data, indices, indptr) 元 组 
e 高 效 列 切片 、 面 向 列 的 操作 
e 较 慢 的 行 切片 、 改 变 稀 玻 结构 代价 昂贵 
e HR: 
o 实际 计算 (巨大 多 数 线性 求解 器 支持 这 个 格式 ) 


O O O 0 O 


2.5.2.2.6.1 示例 
e 6JEEZECSCAIBIE: 
In [33]: 


mtx = sparse.csc matrix((3, 4), dtype-np.int8) 
mtx.todense() 


Out[33]: 
matrix([[0, 0, 0, 0] 
[0, 0, 0, 0] 
0, ©, 0] 


[0, ], dtype-int8) 


e 用 (data, ij) 元 组 创建 : 


In [34]: 
row = np.array([0, 0, 1, 2, 2, 2]) 
col - np.array([0, 2, 2, 0, 1, 2]) 


data - np.array([1, 2, 3, 4, 5, 6]) 
mtx = sparse.csc matrix((data, (row, col)), shape=(3, 3)) 
mtx 


Out[34]: 


«3x3 sparse matrix of type '«type 'numpy.int64'>' 
with 6 stored elements in Compressed Sparse Column format» 


In [35]: 


mtx.todense() 


Out[35]: 


matrix([[1, 0, 2], 
[0, 0, 3], 
[4, 5, 6]]) 


In [36]: 
mtx.data 
Out[36]: 
anray 245 5 72, 3 6) 
In [37]: 
mtx.indices 
Out[37]: 
array([0, 2, 2, ©, 1, 2], dtype=int32) 
In [38]: 
mtx.indptr 
Out[38]: 
array([0, 2, 3, 6], dtype=int32) 


e FA (data, indices, indptr) 元 组 创建 : 
In [39]: 


data - np.array([1, 4, 5, 2, 3, 6]) 

indices = np.array([0, 2, 2, ©, 1, 2]) 

indptr = np.array([0, 2, 3, 6]) 

mtx = sparse.csc_matrix((data, indices, indptr), shape=(3, 3)) 
mtx.todense() 


Out[39]: 
matrix([[1, 0, 2], 
[0, 0, 3], 

[4, 5, 6]]) 


2.5.2.2.7 块 压缩 行 格式 (BSR)) 


e 本质 上 ，CSR 带 有 密集 的 固定 形状 的 子 和 矩 阵 而 不 是 纯 量 的 项 目 
o 块 大 小 (R, C) 必须 可 以 整除 矩阵 的 形状 (M, N) 
o 三 个 Numpy 数 组 : indices 、 indptr 、 data 
= indices 是 每 个 块 列 索引 的 数组 
=» data 是 形状 为 (nnz, R, C)xt SAFES 


o cs matrix 的 子 类 (通用 的 CSR/CSC 功 能 性 ) 

o data matrix 的 子 类 ( 带 有 data RITERITE E 3X) 
e 快速 矩阵 向 量 相 乘 和 其 他 的 算术 (sparsetools) 
e 构建 器 接受 : 

o 密集 和 矩阵 (数组 ) 

o 稀疏 矩阵 

o 形状 元 组 (创建 空 的 矩阵 ) 

o (data, ij) 元 组 
o (data, indices, indptr) 元 组 
许多 对 于 带 有 密集 子 和 矩阵 的 稀 政 矩阵 算术 操作 比 CSR 更 高 效 很 多 
e 用途: 

o 类 似 CSR 

o 有 限 元 素 向 量 值 离散 化 AE 2.5.2.2.7.1 示例 
e 创建 空 的 (1, 1) 块 大 小 的 (类 似 CSR...) BSBSRÓBIR: 


In [40]: 


mtx = sparse.bsr matrix((3, 4), dtype=np.ints) 
mtx 


Out[40]: 


«3x4 sparse matrix of type '«type 'numpy.int8'»' 
with O stored elements (blocksize - 1x1) in Block Sparse Row f« 


«| ES 











In [41]: 


mtx.todense() 


Out[41]: 
matrix([[0, 0, 0, 0], 


[0, 0, 6, 0], 
[0, ©, ©, 0]], dtype-int8) 


e 创建 块 大 小 (3, 2) 的 空 BSR 和 矩阵 : 
In [42]: 


mtx = sparse.bsr matrix((3, 4), blocksize=(3, 2), dtype-np.int8) 
mtx 


Out[42]: 


«3x4 sparse matrix of type '«type 'numpy.int8'»' 
with © stored elements (blocksize = 3x2) in Block Sparse Row fc 


HEG 





- 一 个 bug? 


e 用 (1, 1) 块 大 小 (类似 CSR...) (data, ij) 的 元 组 创建 : 
In [43]: 


row np.array([0, ©, 1, 2, 2, 2]) 
col np.array([0, 2, 2, ©, 1, 2]) 
data = np.array([1, 2, 3, 4, 5, 6]) 

mtx = sparse.bsr_matrix((data, (row, col)), shape=(3, 3)) 
mtx 


Out[43]: 


«3x3 sparse matrix of type '«type 'numpy.int64'>' 
with 6 stored elements (blocksize = 1x1) in Block Sparse Row fc 


«| = 











In [44]: 


mtx.todense() 


Out[44]: 
matrix([[1, 0, 2], 
[0, 0, 3], 
[4, 5, 6]]) 


In [45]: 


mtx.indices 


Out[45]: 


array([0, 2, 2, ©, 1, 2], dtype=int32) 


In [46]: 


mtx.indptr 


Out[46]: 


array([O0, 2, 3, 6], dtype=int32) 


e 用 (2, 1) 块 大 小 (data, indices, indptr) 的 元 组 创建 : 
In [47]: 


indptr = np.array([0, 2, 3, 6]) 

indices = np.array([0, 2, 2, ©, 1, 2]) 

data = np.array([1, 2, 3, 4, 5, 6]).repeat(4).reshape(6, 2, 2) 
mtx = sparse.bsr_matrix((data, indices, indptr), shape=(6, 6)) 
mtx.todense() 


Out[47]: 


matrix([[1, 


In [48]: 


data 


Out[48]: 


array([[[1, 
[1, 


[[2, 
[2, 


[[3, 
[3, 


[[4, 4 
[4, 4 


[L5, 
[5, 


[[6, 
[6, 
2.5.2.3 总 结 
存储 机 制 的 总 结 
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格式 
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ABI * 向 量 


sparsetools 


通过 CSR 


python 


sparsetools 


sparsetools 


sparsetools 


sparsetools 
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ID» [me 


并 


并 


TA p f ull 


并 


并 


ah eh ah ah MAA 


Hi 可 市 


门 
化 


备注 
有 数据 数组 ， 专 门 
化 


通过 CSR 的 算术 ， 
增 量 构建 


0(1) 条 目 访 问 ， 
增 量 构建 


有 数据 数组 , 便利 
的 快速 转换 


有 数据 数组 , 快速 
以 行为 主 的 操作 


有 数据 数组 , 快速 
以 列 为 主 的 操作 


有 数据 数组 ， 专 门 
化 


2.6 使 用 Numpy 和 Scipy 进 行 图 像 操 作 及 义理 
In [3]: 


%matplotlib inline 
import numpy as np 


作者 : Emmanuelle Gouillart, Gaél Varoquaux 


ix4 个 部 分 解决 用 核心 的 科学 模块 NumPy 和 SciPy 做 基本 的 图 像 操作 和 处 理 。 这 个 教 
程 中 涵盖 的 一 些 操 作 可 能 对 于 一 些 其 他 类 型 的 多 维度 数据 处 理 比 对 图 像 处 理 更 加 有 
用 。 特 别 是 ， 子 摸 块 scipy.ndimage 提 供 了 在 N 维 Numpy 数 组 上 操作 的 方法 。 


也 看 一 下 : 对 于 更 高 级 的 图 像 处 理 和 图 像 特有 的 程序 ， 见 专注 于 skimage 模 块 教程 
Scikit-image: B R% I, 


图 像 = 2-D 数值 数组 
(或 者 3-D: CT, MRI, 2D + time; 4-D, ...) 
ix EB, 图 像 22 Numpy 数组 np.array 
本 教程 中 使 用 的 工具 : 


e numpy : 基础 的 数组 操作 
e scipy : scipy.ndimage 专注 于 图 像 处 理 的 子 模块 (n 图 像 )。 见 文档 : 


In [1]: 


from scipy import ndimage 


E] f he TE RBS LEE 
e 输入 /输出 、 显 示 图 像 


e 基础 操作 : BI, 翻转 、 旋 转 … 

e 图 像 过 滤 : 降 噪 , 锐 化 

° o 根据 不 同 的 对 象 标 记 像 素 
e aR 


配 准 


章节 内 容 
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打开 和 写 入 图 像 文件 
显示 图 像 
基础 操作 
统计 信息 
几何 图 像 变换 


边缘 检测 
分 隔 
测量 对 象 属性 : ndimage.measurements 


2.6.1 打开 和 写 入 图 像 文 件 


将 数组 写 入 文件 : 
In [4]: 


from scipy import misc 
f = misc.face() 
misc.imsave('face.png', f) # 使 用 图 像 模块 (PIL) 


import matplotlib.pyplot as plt 
plt.imshow(f) 
plt.show() 








200 400 600 800 1000 
从 图 像 文件 创建 一 个 numpy 数 组 : 
In [5]: 


ww 47 en l6 4B Je TL , Im 
V ?并 AT TR (名 don 4/ M5 Lb) 二 出 
- y 1J B [A te VE A A^ LL 


^ C [d EH Nlis 于 门人 ai, 
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from scipy import misc 
face - misc.face() 
misc.imsave('face.png', face) # 首先 我 们 需要 创建 这 个 PNG 文 件 


face = misc.imread('face.png') 
type(face) 


Out[5]: 


numpy.ndarray 


In [6]: 


face.shape, face.dtype 


Out[6]: 
((768, 1024, 3), dtype('uint8')) 
对 于 8 位 的 图 像 (0-255) dtype 是 uint8 


打开 raw 文 件 (照相 机 , 3-D 图 像 ) 
In [7]: 


face.tofile('face.raw') # 创建 raw 文 件 
face from raw = np.fromfile('face.raw', dtype=np.uint8) 
face from raw.shape 


Out[7]: 
(2359296, ) 


In [8]: 
face from raw.shape = (768, 1024, 3) 
需要 知道 图 像 的 shape 和 dtype (如 何 去 分 离 数 据 类 型 )。 


对 于 大 数据 , 使 用 np .memmap 来 做 内 存 映射 : 
In [9]: 
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face memmap = np.memmap('face.raw', dtype=np.uint8, shape=(768, 10: 

-—— ——— HN 

(数据 从 文件 中 读 取 ， 并 没有 加 载 到 内 存 ) 

处 理 一 组 图 像 文件 

In [10]: 





for i in range(10): 
im = np.random.random integers(0, 255, 10000).reshape((100, 10( 
misc.imsave('random 9602d.png' % i, im) 

from glob import glob 

filelist = glob('random*.png') 

filelist.sort() 





2.6.2 显示 图 像 


使 用 matplotlib 和 imshow 在 matplot1lib 图 形 内 部 显示 图 像 : 
In [11]: 


f = misc.face(gray-True) # 取 回 灰 度 图 像 
import matplotlib.pyplot as plt 
plt.imshow(f, cmap-plt.cm.gray) 


Out[11]: 


«matplotlib.image.AxesImage at 0x10afbObd0> 





200 400 600 800 1000 


; TH NMA 


pen 
- 2 A 

14 N7 AA 1 37 

t f 人 o SE 9 O*t 





通过 设置 最 小 和 最 大 值 增加 对 比 度 : 
In [14]: 


plt.imshow(f, cmap-plt.cm.gray, vmin=30, vmax=200) 


Out[14]: 


<matplotlib.image.AxesImage at 0x110f8c6d0> 








200 20 0 600 800 1000 
In [16]: 


plt.imshow(f, cmap-plt.cm.gray, vmin=30, vmax-200) 
# 删除 座 标 轴 和 刻度 
plt.axis('off') 


Out[16]: 


(-0.5, 1023.5, 767.5, -0.5) 
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画 出 轮廓 线 : 
In [18]: 


plt.imshow(f, cmap-plt.cm.gray, vmin-30, vmax-200) 
# 删除 座 标 轴 和 刻度 

plt.axis('off') 

plt.contour(f, [50, 200]) 


Out[18]: 


«matplotlib.contour.QuadContourSet instance at 0x10cab5878> 





[Python 源 代码 ] 
对 于 要 精确 检查 的 密度 变量 ， 使 用 interpolation-'nearest' 
In [19]: 


plt.imshow(f[320:340, 510:530], cmap=plt.cm.gray) 


^? C [HS BANI A InCaieuE 45 pa d t M, 5; TE 26a 
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Out[19]: 


<matplotlib.image.AxesImage at 0x10590da90> 





In [20]: 


plt.imshow(f[320:340, 510:530], cmap-plt.cm.gray, interpolation='ne 
EJES t" E: 
Out[20]: 





<matplotlib.image.AxesImage at 0x110716c10> 





[Python 源 代 码 ] 
也 可 以 看 一 下 3-D 可 视 化 : Mayavi 
见 使 用 Mayavi 的 3D 绘 图 。 


e Image plane widgets 
e lsosurfaces 
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。 
n 
2.6.3 基础 操作 


图 像 是 数组 : 使 用 完整 的 numpy 机 制 。 









In [21]: 
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face - misc.face(gray-True) 
face[0, 40] 


Out[21]: 


127 


In [22]: 


# 切片 
face[10:13, 20:23] 


Out[22]: 


array([[141, 153, 145], 
[133, 134, 125], 
[ 96, 92, 94]], dtype-zuint8) 


In [24]: 


face[100:120] - 255 

lx, ly - face.shape 

X, Y = np.ogrid[0:1x, 0:1y] 

mas k=O 2y 200 /2 2 sd 
# 825 (masks) 

face[mask] = 0 

4 象征 索引 (Fancy indexing) 

face[range(400), range(400)] = 255 





[Python source code] 


2.6.3.1 统计 信息 


In [26]: 


face - misc.face(gray-True) 
face.mean() 


Out[26]: 


113.48026784261067 


In [27]: 


face.max(), face.min() 


Out[27]: 


(250, 0) 


np.histogram 
练习 


e 将 scikit-image logo 作 为 数组 打开 (http://scikit- 

image.org/ static/img/logo.png), 或 者 在 你 电脑 上 的 其 他 图 像 。 

剪 切 图 像 的 有 意义 部 分 ， 例 如 ，logo 中 的 python 圆 形 。 

用 matplotlib 显示 图 像 数 组 。 改 变 interpolation 方 法 并 且 放 大 看 一 下 差异 。 
将 你 的 图 像 改变 为 灰 度 

通过 改变 它 的 最 小 最 大 值 增 加 图 像 的 对 比 度 。 选 做 : 使 

用 scipy.stats.scoreatpercentile ( 读 一 下 文本 字符 串 !) 来 饱和 最 黑 5% 
的 像素 和 最 亮 5% 的 像素 。 

e. 将 数组 保存 为 两 个 不 同 的 文件 格式 (png, jpg, tiff) 


scikits-image 


image processing in python 





2.6.3.2 几何 图 像 变 换 
In [28]: 


face - misc.face(gray-True) 

lx, ly - face.shape 

# BY) 

crop face = face[1x / 4: - 1x / 4, ly / 4: - ly / 4] 

4 up «-» down 翻转 

flip ud face - np.flipud(face) 

# 旋转 

rotate face = ndimage.rotate(face, 45) 

rotate face noreshape - ndimage.rotate(face, 45, reshape-False) 





[Python source code] 


2.6.4 图 像 过 滤 


局 部 过 滤器 : 通过 临近 像素 值 的 画 数 来 蔡 换 像素 的 值 。 
邻居 : 方块 (选择 大 小 )、 硬盘 、 或 者 更 复杂 的 结构 化 元 素 。 





2.6.4.1 模糊 / 光滑 


高 斯 过 滤器 来自 scipy.ndimage : 
In [29]: 


from scipy import misc 

face - misc.face(gray-True) 

blurred face - ndimage.gaussian filter(face, sigma-3) 
very blurred - ndimage.gaussian filter(face, sigma-5) 
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均匀 过 滤器 
In [30]: 


local mean - ndimage.uniform filter(face, size-11) 





[Python source code] 


2.6.4.2 锐 化 
锐 化 模糊 的 图 像 : 
In [31]: 


from scipy import misc 
face - misc.face(gray-True).astype(float) 
blurred f - ndimage.gaussian filter(face, 3) 


通过 添加 Laplacian 的 近似 值 来 增加 边缘 的 权重 : 
In [32]: 


filter blurred f - ndimage.gaussian filter(blurred f, 1) 
alpha - 30 
sharpened = blurred f + alpha * (blurred f - filter blurred f) 
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[Python source code] 


2.6.4.3 降 噪 
有 噪音 的 脸 : 
In [33]: 


from scipy import misc 

f = misc.face(gray-True) 

f - f[230:290, 220:320] 

noisy = f + 0.4 * f.std() * np.random.random(f .shape) 


高 斯 过 滤器 光滑 了 噪音 .… 以 及 边缘 : 
In [34]: 
gauss denoised - ndimage.gaussian filter(noisy, 2) 
绝 大 多 数 局 部 线性 各 向 同性 过 滤器 模糊 图 像 ( ndimage.uniform filter ) 


中 位 数 过 滤器 更 好 的 保留 的 边缘 : 
In [35]: 


med denoised = ndimage.median filter(noisy, 3) 


Gaussian filter ] Median filter 
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[Python source code] 
中 位 数 过 滤器 : 对 直 边 缘 的 结果 更 好 ( 低 曲 度 ): 
In [37]: 
im = np.zeros((20, 20)) 
im[5:-5, 5:-5] = 1 
im - ndimage.distance transform bf(im) 


im noise = im + 0.2 * np.random.randn(*im.shape) 
im med - ndimage.median filter(im noise, 3) 


Original image Noisy image Median filter Error 


[Python source code] 

其 他 排名 过 滤器 : ndimage.maximum filter 、  ndimage.percentile filter 
其 他 的 局 部 非 线 性 过 滤器 : Wiener ( scipy.signal.wiener ) 等 等 . 

非 局 部 过 滤器 

练习 : ER 


创建 一 个 带 有 一 些 对 象 ( 圆 形 、 椭圆 、 正 方形 或 随机 形状 ) 的 二 元 图 像 (0 和 1). 
添加 一 些 噪音 (例如 , 20% 的 噪音 

用 两 种 不 同 的 降 噪 方法 来 降 噪 这 个 图 像 : 高 斯 过 滤器 和 中 位 数 过 滤器 。 

比较 两 种 不 同 降 噪 方法 的 直方 图 。 哪 一 个 与 原始 图 像 (无 噪音 ) 的 直方 图 最 接 
近 ? 


也 看 一 下 : 在 skimage.denoising 中 有 更 多 的 的 降 噪 过 滤器 可 用 ， 见 教程 Scikit- 
image: 图 像 处 理 . 


2.6.4.4 数学 形态 学 
看 一 下 wikipedia 上 的 数学 形态 学 定义 。 


RE (结构 化 的 元 素 ) 的 图 像 ， 然 后 根据 这 个 形状 是 如 何 局 部 适应 或 不 
这 个 图 像 来 修改 这 个 图 像 。 


结构 化 元 素 : 


In [38]: 


el - ndimage.generate binary structure(2, 1) 
el 


Out[38]: 


array([[False, True, False], 
[ True, True, True], 
[False, True, False]], dtype=bool) 


In [39]: 


el.astype(np.int) 


Out[39]: 
array([[0, 1, 0], 
E er 

[0, 1, 9]]) 





风化 (Erosion) = 最 小 值 过 滤器 。 用 结构 化 元 素 所 覆盖 的 最 小 值 来 替换 像素 的 值 。: 
In [41]: 


a = np.zeros((7,7), dtype=np.int) 
a[1:6, 2:5] = 1 
a 


Out[41]: 
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In [42]: 


ndimage.binary erosion(a).astype(a.dtype) 


Out[42]: 
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In [43]: 


# 风 化 删除 了 上 比 结构 小 的 对 象 


np.ones((5,5))).astype(a.dtype: 


structure 


ndimage.binary erosion(a, 


Out[43]: 
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< 上 


Erosion Dilation Opening Closing 


扩大 (Dilation) : 最 大 值 过 
In [44]: 





a - np.zeros((5, 5)) 
al 2g T 
a 


Out[44]: 


array([ 


eeees 
samee 
©2000 
cocco 
ELSE eS 
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In [45]: 


ndimage.binary dilation(a).astype(a.dtype) 


Out[45]: 
array([[ 0., 0., 0., ©., 0.], 
[ 0., ©, 1., ©., 0.], 
l Osp ieg fop ioy Gl; 
[ 0., 0., 1., ©, 0], 
[89s Oor Oo, Ose © 
对 于 厌 度 值 图 像 同 桩 适用 : 


In [46]: 


np.random.seed(2) 

im - np.zeros((64, 64)) 

x, y = (63*np.random.random((2, 8))).astype(np.int) 

im[x, y] = np.arange(8) 

bigger points = ndimage.grey dilation(im, size=(5, 5), structure-n[ 
square - np.zeros((16, 16)) 

square[4:-4, 4:-4] = 1 

dist - ndimage.distance transform bf(square) 

dilate dist = ndimage.grey dilation(dist, size-(3, 3), structurezn[ 








[Python source code] 
Opening: erosion + dilation: 
In [48]: 


a - np.zeros((5,5), dtypeznp.int) 
arb dea ae aA e i 
a 


Out[48]: 
array([[0, 0, 0, 0, 0], 
[ol O, 

[0/01 93 1 Aere 

[oR cep Ob a, 

[0, 0, 0, 9, 1]]) 


In [49]: 


# Opening 删除 小 对 象 
ndimage.binary opening(a, structure-np.ones((3,3))).astype(np.int) 


Out[49]: 


array([[60, 0, 0, 0, 0], 
[0, 1, 1, 1, 0], 
[0, 1, 1, 1, 0], 
[0, 1, 1, 1, 0], 
[0, ©, ©, ©, 9]]) 


In [50]: 


4 Opening 也 可 以 光滑 转角 
ndimage.binary opening(a).astype(np.int) 


Out[50]: 
array([[0, 0, 0, 0, 0], 
[0, 0, 1, ©, 6], 

[Oi el, 

[0, 0, 1, ©, 6], 

[0, ©, 9, ©, 0]]) 


应 用 : 去 除 噪音 : 
In [B1]: 


square - np.zeros((32, 32)) 

square[10:-10, 10:-10] = 1 

np.random.seed(2) 

x, y = (32*np.random.random((2, 20))).astype(np.int) 

square[x, y] = 1 

open square - ndimage.binary opening(square) 

eroded square - ndimage.binary erosion(square) 

reconstruction = ndimage.binary propagation(eroded square, mask-sqt 


El 





[Python source code] 


Closing: dilation + erosion 许多 其 他 的 数学 形态 学 操作 : hit 和 miss 转换 、tophat 等 
=e 


2.6.5.2 分 割 


In [52]: 
n = 10 
l = 256 


im = np.zeros((l, 1)) 

np.random.seed(1) 

points = l*np.random.random((2, n**2)) 
im[(points[0]).astype(np.int), (points[1]).astype(np.int)] = 1 
im = ndimage.gaussian filter(im, sigma=1/(4.*n)) 
mask = (im > im.mean()).astype(np. float) 

mask += 0.1 * im 

img = mask + 0.2*np.random.randn(*mask.shape) 
hist, bin_edges = np.histogram(img, bins=60) 

bin centers = 0.5*(bin edges[:-1] + bin edges[1:]) 
binary img - img » 0.5 








histogram 











[Python source code] 
用 数学 形态 学 来 清理 结果 : 
In [53]: 


# 删除 小 白色 区 域 

open img = ndimage.binary opening(binary img) 
# 删除 小 黑洞 

close_img = ndimage.binary_closing(open_img) 





[Python source code] 
练习 
检查 重建 操作 (erosion + propagation) 生成 一 个 比 opening/closing 更 好 的 结果 : 
In [55]: 
eroded img - ndimage.binary erosion(binary img) 
reconstruct img = ndimage.binary propagation(eroded img, mask-binai 
tmp - np.logical not(reconstruct img) 
eroded tmp = ndimage.binary erosion(tmp) 


reconstruct final = np.logical not(ndimage.binary propagation(erodt 
np.abs(mask - close img).mean() 


E — 


Out[55]: 





0.0072783654884356133 


In [56]: 


np.abs(mask - reconstruct final).mean() 


Out[56]: 


0.00059502552803868841 


练习 


检查 第 一 步 降 噪 (例如 ， 中 位 数 过 滤器 ) 如 何 影响 直方 图 ， 检 查 产生 的 基于 直方 图 的 
分 割 是 否 更 加 准确 。 

也 可 以 看 一 下 : 更 高 级 分 割 算 法 可 以 在 scikit-image 中 找到 : 见 Scikit-image: 
像 处 理 。 


也 可 以 看 一 下 : 其 他 科学 计算 包 为 图 像 处 理 提供 的 算法 。 在 这 个 例子 中 ， 我 们 使 
用 scikit-learn 中 的 谱 聚 类 画 数 以 便 分 割 黏 在 一 起 的 对 象 。 


In [57]: 


from sklearn.feature extraction import image 
from sklearn.cluster import spectral clustering 


1 = 100 

X, y = np.indices((1, 1)) 
center1 = (28, 24) 
center2 = (40, 50) 
center3 = (67, 58) 
center4 = (24, 70) 


radius1, radius2, radius3, radius4 = 16, 14, 15, 14 


circle1 = (x - center1[0])**2 + (y - center1[1])**2 < radiusi**2 
circle2 = (x - center2[0])**2 + (y - center2[1])**2 < radius2**2 
circle3 = (x - center3[0])**2 + (y - center3[1])**2 < radius3**2 
circle4 = (x - center4[0])**2 + (y - center4[1])**2 < radius4**2 


# 4 个 圆 形 

img = circle1 + circle2 + circle3 + circle4 
mask = img.astype(bool) 

img - img.astype(float) 


img += 1 + 0.2*np.random.randn(*img.shape) 
# 将 图 像 转化 为 边缘 带 有 坡度 值 的 图 。 
graph = image.img to graph(img, mask=mask) 


# 用 一 个 梯度 递减 范 数 ; 我 们 用 它 轻 度 依赖 于 接近 voronoi 的 梯度 细 分 
graph.data = np.exp(-graph.data/graph.data.std()) 


labels = spectral clustering(graph, n clusters-4, eigen solver-'ar[ 
label im - -np.ones(mask.shape) 
label im[mask] - labels 


b 00 0 








2.6.6 测量 对 象 属性 : ndimage.measurements 
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合成 数据 : 
In [59]: 


n 10 

l = 256 

im = np.zeros((l, 1)) 

points = l*np.random.random((2, n**2)) 
im[(points[0]).astype(np.int), (points[1]).astype(np.int)] = 1 
im = ndimage.gaussian filter(im, sigma=1/(4.*n)) 

mask = im > im.mean() 


e 联通 分 支 分 析 
标记 联通 分 支 : ndimage.label 
In [60]: 


label im, nb labels - ndimage.label(mask) 
nb labels # 多 少 区 域 ? 
plt.imshow(label im) 


Out[60]: 


«matplotlib.image.AxesImage at 0x11543ab10> 
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[Python source code] 
计算 每 个 区 域 的 大 小 、mean_value 等 等 : 
In [61]: 


Sizes = ndimage.sum(mask, label im, range(nb labels + 1)) 

mean vals = ndimage.sum(im, label im, range(1, nb labels + 1)) 
清理 小 的 联通 分 支 : 
In [62]: 


mask size - sizes « 1000 

remove pixel - mask size[label im] 
remove pixel.shape 

label im[remove pixel] - O 
plt.imshow(label im) 


Out[62]: 


<matplotlib.image.AxesImage at 0x114644a90> 





现在 用 np.searchsorted 重新 分 配 标签 : 
In [63]: 


labels - np.unique(label im) 
label im - np.searchsorted(labels, label im) 





[Python source code] 
找到 包含 感 兴趣 对 象 的 区 域 : 
In [65]: 


slice x, slice y = ndimage.find objects(label im--4)[0] 
roi - im[slice x, slice y] 
plt.imshow(roi) 


Out[65]: 


<matplotlib.image.AxesImage at 0x1147fa8d0> 





10 20 30 40 50 


[Python source code] 


其 他 空间 测量 : ndimage.center of mass , ndimage.maximum position ,等 


等 ， 可 以 在 分 割 应 用 这 个 有 限 的 部 分 之 外 使 用 。 
实例 : 块 平均 数 : 
In [66]: 


from scipy import misc 

f = misc.face(gray-True) 

sx, Sy = f.shape 

X, Y = np.ogrid[0:sx, O:sy] 

regions = (sy//6) * (X//4) + (Y//6) # 注意 我 们 使 用 广播 

block mean = ndimage.mean(f, labels-regions, index-np.arange(1, reg 
block mean.shape - (sx // 4, sy // 6) 


4 n 
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[Python source code] 
当 区 域 是 标准 的 块 时 ， 使 用 步 长 刻度 更 加 高 效 (实例 : 使 用 刻度 的 虚假 维度 )。 
非 标准 空间 块 : radial 平 均 : 
In [67]: 
sx, Sy = f.shape 
X, Y = np.ogrid[0:sx, O:sy] 
r = np.hypot(X - sx/2, Y - sy/2) 
rbin = (20* r/r.max()).astype(np.int) 
radial mean = ndimage.mean(f, labels-rbin, index-np.arange(1, rbin 


TREE 
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[Python source code] 

e 其 他 测量 
*A EN X, Fourier/waveletini#, 515, 
使 用 数学 形态 学 的 一 个 实例 : granulometry 


In [69]: 


2.6 使 用 Numpy 和 Scipy 进 行 图 像 操 作 及 处 理 


388 


def disk structure(n): 
struct = np.zeros((2 * n+ 1, 2 * n + d) 
x, y = np.indices((2 * n+ 1, 2 * n + 1)) 
mask = (x - n)**2 + (y - n)**2 <= n**2 
struct[mask] = 1 
return struct.astype(np.bool) 


def granulometry(data, sizes=None): 
s - max(data.shape) 
if sizes -- None: 
sizes = range(1, s/2, 2) 
granulo = [ndimage.binary opening(data, \ 
structure-disk structure(n)).sum() for n in sizes] 
return granulo 


np.random.seed(1) 

n 10 

Ji 256 

im = np.zeros((l, 1)) 

points = l*np.random.random((2, n**2)) 
im[(points[0]).astype(np.int), (points[1]).astype(np.int)] = 1 
im = ndimage.gaussian_filter(im, sigma=1/(4.*n)) 


mask = im > im.mean() 


granulo = granulometry(mask, sizes=np.arange(2, 19, 4)) 


/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/si! 





2 4 6 8 1012 14 16 18 


[Python source code] 
也 看 一 下 : 关于 图 像 处 理 的 更 多 内 容 : 


e 关于 Scikit-image 的 章节 
e 其 他 更 有 力 更 完整 的 模块 : OpenCV (Python Œ), CellProfiler, ITK 带 有 Python 
BRIE 
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2.7 数学 优化 : 找到 函数 的 最 优 解 
In [2]: 


%matplotlib inline 
import numpy as np 


作者 : Gaél Varoquaux 


数学 优化 处 理 寻找 一 个 函数 的 最 小 值 〈 最 大 值 或 雳 ) 的 问题 。 在 这 种 情况 下 ， 这 个 
ERAT y KA, SAE, REE, 


这 里 ， 我 们 感 optimize 来 进行 黑 盒 优化 : 我 们 不 依赖 于 我 们 优 
化 的 函数 的 算术 表达 式 。 注 意 这 个 表达 式 通常 可 以 用 于 高 效 的 、 非 黑 盒 优 化 。 


先决 条 件 


e Numpy, Scipy 
e matplotlib 


也 可 以 看 一 下 : 参考 
数学 优化 是 非常 … 数学 的 。 如 果 你 需要 性 能 ， 那 么 很 有 必要 读 一 下 这 些 书 : 


e Convex Optimization Boyd and Vandenberghe (pdf 版 线 上 免费 )。 
e Numerical Optimization, Nocedal and Wright, 关于 梯度 下 降 方 法 的 详细 参 


e Practical Methods of Optimization Fletcher: 擅长 挥手 解释 。 


e 了 解 你 的 问题 
o tb VS 非 凸 优化 
o 平滑 问题 和 非 平 滑 问 题 
o 嘲 厅 VS 精确 的 成 本 函数 
o 限制 
e. 不 同 最 优化 方法 的 回顾 
o 入 门 :一 维 最 优化 
o 基于 梯度 的 方法 
o 牛顿 和 拟 牛 顿 法 
o 较 少 梯度 方法 
o 全 局 优化 
e 使 用 scipy 优 化 的 操作 指南 
选择 一 个 方法 
让 你 的 优化 器 更 快 
计算 梯度 
虚拟 练习 


o 
o 
o 
o 


e 特殊 情境 : 非 线性 最 小 二 乘 
o 最 小 化 向 量 函 数 的 范 数 
o 曲线 拟 合 

e. 有 限制 的 最 优化 
o 箱 边 界 
o 通用 限制 


2.7.1 了 解 你 的 问题 

每 个 问题 都 是 不 相同 。 了 解 你 的 问题 使 你 可 以 选择 正确 的 工具 。 

问题 的 维 数 

优化 问题 的 规模 非常 好 的 由 问题 的 维 数 来 决定 ， 即 ， 进 行 搜索 的 标量 变量 的 数量 。 
2.7.1.4 凸 优化 VS 非 凸 优化 


oe: 


e $f$ 在 它 的 所 有 切线 之 上 。 
。 相应 的 , 对 于 两 个 点 point A, B, f(C) 在 线段 [f(A), f(B])] 之 下 , 如 果 A<C<B 





FF EH BX 


RAC SERE RS e. BR AE FE OE eA) BEE SS ER XE 


注意 : 可 以 证 明 对 于 一 个 凸 范 数 局 部 最 小 值 也 是 全 局 最 小 值 。 然 后 ， 从 某 种 意 
义 上 说 ， 最 小 值 是 惟一 的 。 


2.7.1.2 平滑 和 非 平 滑 问 题 
TRE: 
梯度 无 处 不 在 ， 是 一 个 连续 图 数 


FEES PH a: 


优化 平滑 函数 更 简单 一 些 (在 黑 盒 最 优化 的 前 提 是 对 的 ， 此 外 线性 编程 是 一 个 非常 
BARED BS HE BO BF 
2.7.1.3 UE Ak VS 精确 成 本 函数 


有 噪音 (blue) 和 无 噪音 (green) HX 


噪音 梯度 


许多 优化 方法 都 依赖 于 目标 落 数 的 梯度 。 如 果 没 有 给 出 梯度 画 数 ， 会 从 数值 上 计算 
他 们 ， 会 产生 误差 。 在 这 种 情况 下 ， 即 使 目标 落 数 没有 噪音 ， 基 于 梯度 的 最 优化 也 


可 能 是 噪音 最 优化 。 
2.7.1.4 限制 
基于 限制 的 最 优化 
这 里 是 : 

$-1«x 1« 1$ 
$-1«x 2« 1$ 





2.7.2 不 同 最 优化 方法 的 回顾 


2.7.2.1 入 门 : 一 维 最 优化 
使 用 scipy.optimize.brent() 来 最 小 化 一 维 范 数 。 它 混合 抛物 线 近似 与 区 间 策 略 。 
二 元 函数 的 Brent 方 法 : FIRER EAA, 因为 ， 稍 后 二 元 近似 精确 了 。 


1 


Error on f(x) 
I 
o 
e 


0 1 2 3 4 5 
Iteration 


3FEOESZRSBrent75 A: 注意 最 优化 方法 避免 了 局 部 最 小 值 其 实 是 因为 运气 。 


Error on f(X) 


0 5 10 15 20 25 
Iteration 


In [4]: 


from scipy import optimize 
def f(x): 
return -np.exp(-(x - .7)**2) 
x min = optimize.brent(f) £4 实际 上 在 9 次 迭代 后 收敛 ! 
x_min 


Out[4]: 


0.6999999997839409 


In [4]: 


x min - .7 


Out[4]: 


-2.160590595323697e-10 


注意 : Brent 方 法 也 可 以 用 于 限制 区 间 最 优化 使 用 scipy.optimize.fminbound() 


注意 : 在 scipy 0.11 中 , scipy.optimize.minimize scalar() 给 出 了 一 个 一 维 标 量 最 
优化 的 通用 接口 。 


2.7.2.2 基于 梯度 的 方法 


2.7.2.2.1 关于 梯度 下 降 的 一 些 直 党 

这 里 我 们 关注 直 党 ， 不 是 代码 。 代 码 在 后 面 。 

从 根本 上 说 ， 梯 度 下 降 在 于 在 梯度 方向 上 前 进 小 步 ， 即 最 陡 内 梯 度 的 方向 。 
国定 步 数 梯度 下 降 

状况 良好 的 二 元 函数 。 
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Error on f(x) 





0 20 40 60 80 100 


TRE AY — JU ER AL, 
状况 糟糕 问题 的 梯度 下 降 算 法 的 核心 问题 是 梯度 并 不 会 指向 最 低 点 。 
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Error on f(x) 
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0 50 100 150 200 


我 们 可 以 看 到 非常 各 向 异性 (状况 糟糕 ) 西数 非常 难 优化 。 
带 回 家 的 信息 : 条 件数 和 预 条 件 化 
如 果 你 知道 变量 的 自然 刻度 ， 预 刻度 他 们 以 便 他 们 的 行为 相似 。 这 与 预 条 件 化 相 


并 且 ， 很 明显 采用 大 步 幅 是 有 优势 的 。 这 在 梯度 下 降 代 码 中 使 用 前 线 搜索 。 
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一 # iterations 
一 # function calls 


Error on f(x) 
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Error on f(x) 





-5 
O 200 400 600 800 100012001400 


状况 糟糕 的 非 二 元 函数 。 
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一 # iterations 
— # function calls 


Error on f(x) 





-5 
10 0 200 400 600 800 1000 1200 


状况 糟糕 的 极端 非 二 元 函数 。 
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一 # iterations 
— # function calls 


Error on f(x) 





-1 
O 200 400 600 800100Q20Q40Q600 
HMA ROR TCR (椭圆 半圆 边框 线 ), 最 优化 越 简单 。 


2.7.2.2.2 HS BRE FRE 
上 面 的 梯度 下 降 算 法 是 玩具 不 会 被 用 于 真实 的 问题 。 


正如 从 上 面 例子 中 看 到 的 ， 简单 梯度 下 降 算 法 的 一 个 问题 是 ， 它 试 着 摇摆 穿越 峡 
谷 ， 每 次 跟随 梯度 的 方法 ， 以 便 穿 越 峡 谷 。 共 力 梯 度 通过 添加 摩 探 力 项 来 解决 这 个 
问题 : 每 一 步 依 赖 于 前 两 个 值 的 梯度 然后 急 转 弯 减 少 了 。 


Me ERE RE 
状况 糟糕 的 非 二 元 函数 。 
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一 # iterations 
— # function calls 


Error on f(x) 





O 20 40 60 80 100 120 


TAME FRAY Bum SE — TC ER AC 





一 # iterations 
— # function calls 


Error on f(x) 





O 20 40 60 80 100 120 
fEscipy PRT HiME RAKE A cgo R/IMENAA i 3c dde SEE RRA 
法 是 scipy.optimize.fmin_cg(): 


In [5]: 
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def f(x):  £& The rosenbrockP2i 
return .5*(1 - x[0])**2 + (x[1] 
optimize.fmin cg(f, [2, 2]) 


TE 


Optimization terminated successfully. 
Current function value: 0.000000 


Iterations: 13 
Function evaluations: 120 
Gradient evaluations: 30 


Out[5]: 


array([ 0.99998968, 0.99997855]) 


这 些 方法 需要 函数 的 梯度 。 方 法 可 以 计算 梯度 ， 但 是 如 果 传 递 了 梯度 性 能 将 更 好 : 
In [6]: 


def fprime(x): 
return np.array((-2*.5*(1 - x[0]) - 4*x[0]*(x[1] - x[0]**2), 2 


optimize.fmin cg(f, [2, 2], fprime-fprime) 
_— — Á———— HÀ (E 


Optimization terminated successfully. 
Current function value: 0.000000 
Iterations: 13 
Function evaluations: 30 
Gradient evaluations: 30 





Out[6]: 

array([ 0.99999199, 0©.99998336]) 
注意 函数 只 会 评估 30 次 ， 相 对 的 没有 梯度 是 120 次 。 
2.7.2.3 ^F SCRI AF mz 


2.7.2.3.1 牛顿 法 : 使 用 Hessian (二 阶 微分 )) 


牛 频 法 使 用 局 部 二 元 近似 来 计算 跳跃 的 方向 。 为 了 这 个 目的 ， 他 们 依赖 于 函数 的 前 
两 个 导数 梯度 和 Hessian。 
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状况 糟糕 的 二 元 函数 : 
注意 ， 因 为 二 元 近似 是 精确 的 ， 牛 顿 法 是 非常 快 的 。 





— # iterations 
— # function calls 


Error on f(x) 





1 
0 50 100150200250300350400450 


Ot REI FE — 70 RM: 


ee 通常 在 它 的 二 元 近似 的 下 面 。 因 此 ， 牛 频 法 超 调 量 并 且 
S ERE. 
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一 # iterations 
— # function calls 


Error on f(x) 





2 
0 500 1000 1500 2000 2500 3000 


状况 糟糕 的 极端 非 二 元 函数 : 






— # function calls 


Error on f(x) 
E 
o 


0 
0 10 20 30 40 50 60 70 80 


在 scipy 中 , 最 优化 的 牛顿 法 在 scipy.optimize.fmin_ncg() 实 现 (cg 这 里 是 指 一 个 内 部 
操作 的 事实 ，Hessian 翻 转 , (FAHER) scipy.optimize.fmin tnc() 可 以 
被 用 于 限制 问题 ， 尽 管 没有 那么 多 用 途 : 
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In [7]: 


def f(x):  & rosenbrockWX 

return -5*(1 - x[@])**2 + (x[41] = x[O]**2)**2 
def fprime(x): 

return np.array((-2*.5*(1 - x[0]) - 4*x[0]*(x[1] - x[0]**2), 
optimize.fmin ncg(f, [2, 2], fprime-fprime) 


«| ina 








Optimization terminated successfully. 
Current function value: 0.000000 
Iterations: 9 
Function evaluations: 11 
Gradient evaluations: 51 
Hessian evaluations: 0 


Out[7]: 


array([ 1., 1.]) 


taS (EMM) 相 比 ， 牛 频 法 需要 较 少 的 函数 评估 ， 更 多 的 梯度 评估 ， 
因为 它 使 用 它 近 似 Hessian。 让 我 们 计算 Hessian 并 将 它 传 给 算法 : 


In [7]: 
def hessian(x): £ Computed with sympy 


return np.array(((1 - 4*x[1] + 12*x[0]**2, -4*x[0]), (-4*x[0], 
optimize.fmin ncg(f, [2, 2], fprime-fprime, fhess-hessian) 





Optimization terminated successfully. 
Current function value: 0.000000 
Iterations: 9 
Function evaluations: 11 
Gradient evaluations: 19 
Hessian evaluations: 9 


Out[7]: 


array([ 1., 1.]) 
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注意 : 在 超 高 维 ，Hessian 的 翻转 代价 高 昂 并 且 不 稳定 (大 规模 > 250)。 
注意 : 牛顿 最 优化 算法 不 应 该 与 基于 相同 原理 的 牛顿 根 发 现 法 相 混 
淆 ，scipy.optimize.newton()。 


2.7.2.3.2 拟 牛 上 顿 方法 : 进行 着 近似 Hessian 


BFGS: BFGS (Broyden-Fletcher-Goldfarb-Shanno 算 法 ) 改进 了 每 一 步 对 Hessian 
的 近似 。 


状况 糟糕 的 二 元 函数 : 
在 准确 的 二 元 函数 中 , BFGS 并 不 像 牛 上 屯 法 那么 快 ， 但 是 还 是 很 快 。 


*X 
x 
c 
o 
= 
E 
Ww 





状况 糟糕 的 非 二 元 函数 : 
这 种 情况 下 BFGS 比 牛顿 好 , 因为 它 的 曲 度 经 验 估计 上 比 Hessian 给 出 的 好 。 


2.7 数学 优化 : 找到 函数 的 最 优 解 408 


SciPy Lecture Notes 中 文 版 


Error on f(x) 
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2.7 数学 优化 : 找到 函数 的 最 优 解 


409 


一 # iterations 
— # function calls 


Error on f(x) 





0 
0 10 20 30 40 50 60 70 80 90 
In [9]: 


def f(x):  # rosenbrockER2K 

return .5*(1 - x[0])**2 * (x[1] - x[0]**2)**2 
def fprime(x): 

return np.array((-2*.5*(1 - x[0]) - 4*x[0]*(x[1] - x[0]**2), 2° 
optimize.fmin bfgs(f, [2, 2], fprime-fprime) 





Optimization terminated successfully. 
Current function value: 0.000000 
Iterations: 16 
Function evaluations: 24 
Gradient evaluations: 24 


Out[9]: 


array([ 1.00000017, 1.00000026]) 


L-BFGS: 限制 内 存 的 BFGS 介 于 BFGS 和 共 因 梯度 之 间 : 在 非常 高 的 维度 (> 250) it 
算 和 翻转 的 Hessian 和 矩 阵 的 成 本 非常 高 。L-BFGS 保 留 了 低 秩 的 版 本 。 此 外 ，scipy 
版 本 , scipy.optimize.fmin | bfgs b(), 包含 箱 边界 : 


In [8]: 
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def f(x):  £& rosenbrockER2K 

return .5*(1 = x[0])**2 + (X[4] = x[0]*5*2)**2 
def fprime(x): 

return np.array((-2*.5*(1 - x[0]) - 4*x[0]*(x[1] - x[0]**2), 2 
optimize.fmin l bfgs b(f, [2, 2], fprime=fprime) 


He=== s 
Out[8]: 





(array([ 1.00000005, 1.00000009]), 
1.4417677473011859e-15, 
i muncalls': 17, 
'grad': array([ 1.02331202e-07, -2.59299369e-08]), 
"indt: 6, 
'task': 'CONVERGENCE: NORM OF PROJECTED GRADIENT «- PGTOL', 
'warnflag': 0}) 


注意 : 如 果 你 不 为 L- BFGS 求 解 器 制定 梯度 ， 你 需要 添加 approx : grad= 1 
2.7.2.4 较 少 梯度 方法 


2.7.2.4.1 打靶 法 : Powell 算 法 
接近 梯度 方法 

状态 糟糕 的 二 元 函数 : 
Powell 法 对 低 维 局 部 糟糕 状况 并 不 很 敏感 
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Error on f(x) 
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2.7.2.4.2 单纯 形 法 : Nelder-Mead 
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Nelder-Mead 算 法 是 对 高 维 空间 的 对 立方 法 的 轨 纳 。 这 个 算法 通过 改进 单纯 形 来 工 
作 ， 高 维 空间 间隔 和 三 角形 的 为 纳 ， 包 于 最 小 值 。 
Kee: 对 噪音 很 强壮 ， 他 不 依赖 于 计算 梯度 。 因 此 ， 它 可 以 在 局 部 光滑 的 函数 上 工 


作 ， 上 比如 实验 数据 点 ， 只 要 他 显示 了 一 个 大 规模 的 钟 形 行为 。 但 是 ， 它 在 光滑 、 非 
IRS WALLETS REA AS. 


状况 糟糕 的 非 二 元 函数 : 





一 # iterations 
— # function calls 


Error on f(x) 





状况 糟糕 的 极端 非 二 元 函数 : 
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— # iterations 
— # function calls 


Error on f(x) 





0 50 100 150 200 250 


在 scipy 中 , scipy.optimize.fmin() 实现 了 Nelder-Mead 法 : 
In [11]: 


def f(x):  # rosenbrockER2K 
return -5*(1 - x[0]1)^*2 + (X[1] --x[0]^*2)**2 
optimize.fmin(f, [2, 2]) 


Optimization terminated successfully. 
Current function value: 0.000000 
Iterations: 46 
Function evaluations: 91 


Out[11]: 


array([ 0.99998568, 0.99996682]) 
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2.7.2.5 全 局 最 优化 算法 

如 果 你 的 问题 不 允许 惟一 的 局 部 最 低 点 (很 难 测试 除非 是 凸 画 数 ) ， 如 果 你 没有 先 
前 知识 来 让 优化 起 点 接近 答案 ， 你 可 能 需要 全 局 最 优化 算法 。 

2.7.2.5.1 暴力 : 网 格 搜 索 


scipy.optimize.brute() 在 画 数 网 格 内 来 评价 函数 ， 根 据 最 小 值 返 回 人 参数。 参数 
由 numpy.mgrid 给 出 的 范围 来 指定 。 上 默认 情况 下 ， 每 个 方向 进行 20 步 : 


In [4]: 


def f(x):  & rosenbrockWX 
return -5 (1 x[8])**2 + (xf) = x[01^*2)**2 
optimize.brute(f, ((-1, 2), (-1, 2))) 


Out[4]: 


array([ 1.00001462, 1.00001547]) 


2.7.3 使 用 scipy 优 化 的 现实 指南 


2.7.3.1 选择 一 个 方法 


9 lll-conditioned Gaussian 

> Ill-conditioned quadratic 

* Rosenbrock 

€ Well-conditioned Gaussian 
m Well-conditioned quadratic 


# function calls (a.u.) 


e # dim: 2 © 4 dim: 32 
© # dim: 8 e # dim: 128 





" 
Conjugate gradient Powell Nelder-mead = L-BFGS BFGS Conjugate gradient BFGS L-BFGS Newton 
wf wf wf w Hessian 


没有 关于 梯度 的 知识 : 


e 一 般 来 说 ， 倾 向 于 BFGS (scipy.optimize.fmin bfgs()) 或 L-BFGS (), 即使 你 有 
大 概 的 数值 梯度 

e 在 状况 良好 的 问题 上 ，Powell () 以 及 Nelder-Mead (scipy.optimize.fmin()), 都 
是 在 高 维 上 效果 良好 的 梯度 自 有 的 方法 ， 但 是 ， 他 们 无 法 支持 状况 糟糕 的 问 


Fil o 


有 关于 梯度 的 知识 : 


e BFGS (scipy.optimize.fmin bfgs()) 或 L-BFGS 
(scipy.optimize.fmin | bfgs b()). 

e BFGS 的 计算 开支 要 大 于 L-BFGS, 'E B Ertb Eod de ESETATEAR A. 4-AW, 
BFGS 通 常 比 CG (Himes) mx BESXURHà. Alt, St5eEBEEIATEQUU 
计算 量 较 少 的 函数 时 比 BFGS 更 好 。 


带 有 Hessian: 

e 如 果 你 可 以 计算 Hessian, 推荐 牛顿 法 (scipy.optimize.fmin ncg())e 
如 果 有 噪音 测量 : 
使 用 Nelder-Mead (scipy.optimize.fmin()) 或 者 Powell 
(scipy.optimize.fmin powell()). 


2.7.3.2 让 优化 器 更 快 


e 选择 正确 的 方法 ( 见 上 面 ), 如 果 可 以 的 话 ， 计 算 梯 度 和 Hessia。 

e 可 能 的 时 候 使 用 preconditionning。 

e 联 明 的 选择 你 的 起 点 。 例 如 ， 如 果 你 正在 运行 许多 相似 的 优化 ， 那 么 在 其 他 结 
果 上 软 启 动 。 

。 如 果 你 不 需要 准确 ， 那 么 请 放松 并 容忍 


2.7.3.3 计算 梯度 


计算 梯度 甚至 是 Hessians 的 努力 , 是 枯燥 的 但 是 也 是 值得 的 。 使 用 Sympy 来 进行 象 
征 计算 将 非常 方便 。 


优化 不 能 很 好 收 仇 的 一 个 来 源 是 计算 梯度 过 程 的 人 为 错误 。 你 可 以 
用 scipy.optimize.check_grad() 来 检查 一 下 梯度 是 否 正确 。 它 返回 给 出 的 梯度 与 计算 
的 梯度 之 间 差 异 的 基准 : 


In [9]: 
optimize.check grad(f, fprime, [2, 2]) 
Out[9]: 
2.384185791015625e-07 
15i — Fscipy.optimize.approx fprime() 找 一 下 你 的 错误 。 


2.7.3.4 合成 练习 
练习 : 简单 的 (?) 二 次 函数 
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用 K[0] 作 为 起 始点 优化 下 列 画 数 : 
In [2]: 


np.random.seed(0) 
K - np.random.normal(size-(100, 100)) 


def f(x): 
return np.sum((np.dot(K, x - 1))**2) + np.sum(x**2)**2 


计时 你 的 方法 。 找 到 最 快 的 方法 。 为 什么 BFGS 不 好 用 了 ? 
练习 : 局 部 局 平 最 小 化 
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# e — FERZXSexp(-1/(.1*x^2 + YA2)$。 这 个 函数 在 (0, 0) 存在 一 个 最 小 值 。 从 
起 点 (1，1) 开始 ， 试 着 在 $1e-8$ 达 到 这 个 最 低 点 。 


2.7.4 特殊 案例 : 非 线 性 最 小 二 乘 


2.7.4.1 最 小 化 同 量 函数 的 基准 


最 小 二 乘法 ， 向 量 函 数 基准 值 的 最 小 化 ， 有 特定 的 结构 可 以 用 
o EE leastsq() 中 实现 的 Levenberg-Marquardt 算法 。 


让 我 们 试 一 下 最 小 化 下 面向 量 函 数 的 基准 : 
In [5]: 
def f(x): 
return np.arctan(x) - np.arctan(np.linspace(0, 1, len(x))) 


x0 = np.zeros(10) 
optimize.leastsq(f, x0) 


Out[5]: 
(array([ 0\. , @.11111111, ©.22222222, 0.33333333, 0.44: 
0.55555556, ©.66666667, 0.77777778, ©.88888889, 1\. 
LEN: RN 省 E 


这 用 了 67 次 函数 评估 (用 'full_output=1 试 一 下 )。 如 果 我 们 自己 计算 基准 并 且 使 用 一 
个 更 好 的 通用 优化 器 (BFGS) 会 怎么 样 : 


In [6]: 





def g(x): 
return np.sum(f(x)**2) 
optimize.fmin bfgs(g, x0) 


Optimization terminated successfully. 
Current function value: 0.000000 
Iterations: 11 
Function evaluations: 144 
Gradient evaluations: 12 


Out[6]: 


array([ -7.44987291e-09, 1.11112265e-01,  2.22219893e-01, 
3.33331914e-01, | 4.44449794e-01, | 5.55560493e-01, 
6.66672149e-01, | 7.77779758e-01,  8.88882036e-01, 
1.00001026e+00] ) 


BFGS 需 要 更 多 的 函数 调用 ， 并 且 给 出 了 一 个 并 不 精确 的 结果 。 


注意 只 有 当 输 出 向 量 的 维度 非常 大 ， 比 需要 优化 的 函数 还 要 大 ， leastsq 5 
BFGS 相 类 比 才 是 有 趣 的 。 


如 果 画 数 是 线性 的 ， 这 是 一 个 线性 代数 问题 ， 应 该 用 scipy.linalg.lstsd() 解 决 。 


2.7.4.2 曲线 拟 合 


1.0 


0.5 


0.0 


—1.0 


0.0 0.5 1.0 1.5 2.0 2.5 3.0 


最 小 二 乘 问题 通常 出 现在 拟 合 数据 的 非 线性 拟 合 时 。 当 我 们 自己 构建 优化 问题 时 ， 
scipy 提 供 了 这 种 目的 的 一 个 帮助 函数 : scipy.optimize.curve_fit(): 


In [7]: 


def f(t, omega, phi): 
return np.cos(omega * t + phi) 
X = np.linspace(0, 3, 50) 
y = f(x, 1.5, 1) + .1*np.random.normal(size=50 ) 
optimize.curve fit(f, x, y) 


Out[7]: 


(array([ 1.50600889, 0.98754323]), array([[ 0.00030286, -0.000452: 
[-0.00045233, ©.00098838]])) 


BI - 








练习 
用 omega = 3 来 进行 相同 的 练习 。 困 难 是 什么 ? 


2.7.5 有 限制 条 件 的 优化 


2.7.5.1 箱 边 界 
/ 





箱 边界 是 指 限制 优化 的 每 个 函数 。 注 意 一 些 最 初 不 是 写成 箱 边 界 的 问题 可 以 通过 改 


e scipy.optimize.fminbound() 进 行 一 维 优 化 
e scipy.optimize.fmin_|_bfgs_b() 带 有 边界 限制 的 quasi-Newton 方 法 : 
In [8]: 
def f(x): 
return np.sqre((x[0] - 3)**2 + (x[1] - 2)**2) 
optimize.fmin l1 bfgs b(f, np.array([0, 0]), approx grad-i1, bounds-! 


‘| HB 








Out[8]: 


(array([ 1.5, 1.5]), 

1.5811388300841898, 

('funcalls': 12, 
'grad': array([-0.94868331, -0.31622778]), 
"ng 2, 


'task': 'CONVERGENCE: NORM OF PROJECTED GRADIENT «- PGTOL', 


'warnflag': 07) 


2.7.5.2 通用 限制 
相等 和 不 相等 限制 特定 函数 : f(x) = 0 and g(x)< 0。 


N 





e scipy.optimize.fmin slsqp() 序列 最 小 二 乘 程序 : 相等 和 不 相等 限制 : 


In [10]: 


def f(x): 
return np.sqre((x[0] - 3)**2 + (x[1] - 2)^*2) 


def constraint(x): 
return np.atleast 1d(1.5 - np.sum(np.abs(x))) 


optimize.fmin slsqp(f, np.array([0, 0]), ieqcons-[constraint, 


Optimization terminated successfully. (Exit mode 0) 
Current function value: 2.47487373504 
Iterations: 5 
Function evaluations: 20 
Gradient evaluations: 5 


Out[10]: 


] ) 


array([ 1.25004696, 0.24995304]) 


e scipy.optimize.fmin_cobyla() 通 过 线性 估计 的 限定 优化 : 只 有 不 相等 限制 : 
In [11]: 


optimize.fmin cobyla(f, np.array([0, 0]), conszconstraint) 


Out[11]: 


array([ 1.25009622, 0.24990378]) 


上 面 这 个 问题 在 统计 中 被 称 为 Lasso#LASSO method) 问 题 , 有 许多 解决 它 的 高 效 方 
法 (比如 在 scikit-learn 中 )。 一 般 来 说 ， 当 特定 求解 器 存在 时 不 需要 使 用 通用 求解 
fo 


拉 格 朗 日 乘 子 法 


如 果 你 有 足够 的 数学 知识 ， 许 多 限定 优化 问题 可 以 被 转化 为 非 限定 性 优化 问题 ， 使 
用 被 称 为 拉 格 朗 日 乘 子 法 的 数学 技巧 。 


In [1]: 


%matplotlib inline 
import numpy as np 


作者 : Valentin Haenel 


本 章 包 含 了 许多 可 以 在 Python 使 用 原生 代码 (主要 是 C/C++) 方式 的 介绍 ， 这 个 过 

程 通常 被 称 为 封装 。 本 章 的 目的 是 给 你 有 哪些 技术 存在 已 Laan eA 点 儿 

感 学 ， 这 样 你 可 以 根据 你 的 县 体 需求 和 拉 适 全 的 方式 无 论 如 何 ， 只 要 你 开始 做 封 
， 你 几乎 都 必然 需要 咨询 你 选 定 技术 的 文档 。 


章节 内 容 


Python-C-Api 
Ctypes 

SWIG 

Cython 

Ba 
进一步 阅读 和 参考 
练习 


2.8.1 简介 


本 章 将 涵盖 一 下 技术 : 


e Python-C-Api 

e Ctypes 

e SWIG (简化 封装 器 和 接口 生成 器 ) 

e Cython 

这 四 种 技术 可 能 是 最 知名 的 ， 其 中 Cython 可 能 是 最 高 级 的 ， 并 且 你 应 该 最 优先 使 用 
它 。 其 他 的 技术 也 很 重要 ， 如 果 你 想 要 从 不 同 点 角度 理解 封装 问题 。 之 前 提 到 过 ， 
还 有 其 他 的 替代 技术 ， 但 是 ， 理 解 了 以 上 这 些 基础 的 ， 你 就 可 以 评估 你 选择 的 技术 
是 否 满足 你 的 需求 。 


在 评估 技术 时 ， 下 列 标准 会 有 帮助 : 
需要 额外 的 库 吗 ? 
代码 可 以 自动 生成 ? 

是 否 需 要 编译 ? 


e 与 Numpy 数 组 交互 是 否 有 良好 的 支持 ? 


e 是 否 支 持 C++? 


在 你 动手 前 ， 应 该 先 考 虑 一 下 使 用 情景 。 在 于 原生 代码 交互 时 ， 通 常 来 自 于 两 个 应 
用 场景 : 


e 需要 利用 C/C++ 中 现存 的 代码 ， 或 者 是 因为 它 已 经 存在 ， 或 者 是 因为 它 更 快 。 
e Python 代码 太 慢 ， 将 内 部 循环 变 成 原生 代码 


每 个 技术 都 使 用 来 自 math.h 的 cos 函数 的 封装 来 进行 演示 。 pula Md 
子 ， 但 是 它 确实 给 我 们 很 好 的 演示 了 封装 方法 的 基础 ， 因 为 每 个 技术 也 包含 了 一 
程度 Numpy 支 持 ， 这 也 用 计算 一 些 数组 来 计算 consine 的 例子 来 演示 。 


最 后 ， 两 个 小 警示 : 


° E i 月 溃 ( 细 分 错误 )， 因 为 在 C 代 码 中 的 错 


° 所 有 的 例 子 都 在 Linux 中 完成 ， 他 们 应 该 在 其 他 操作 系统 中 也 可 用 。 
。 在 大 多 数 例子 中 ， 你 都 会 需要 C 编 译 器 。 


2.8.2 Python-C-Api 


Python-C-API 是 标准 Python 解释 器 (BÜCPython) 的 基础 。 使 用 这 个 API 可 以 在 C 和 
C++ 中 写 Python 扩 展 模块 。 很 明显 ， 由 于 语言 兼容 性 的 优点 ， 这 些 扩展 模块 可 以 调 
用 任何 用 C 或 者 C++ 写 的 函数 。 


当 使 用 Python-C-API 时 ， 人 们 通 前 写 许 多 样板 化 的 代码 ， 首 先 解析 画 数 接收 的 参 
数 ， 然 后 构建 返回 的 类 型 。 


TR 


e 不 需要 额外 的 库 
e 许多 系 层 的 控制 
e C++ 完 全 可 用 


不 足 


e 可 以 需要 一 定 的 努力 

高 代码 成 本 

必须 编译 

高 维护 成 本 

如 果 C-API 改 变 无 法 向 前 兼容 Python 版 本 
引用 计数 错误 很 容易 出 现 ， 但 是 很 难 被 跟踪 。 


注意 此 处 的 Python-C-Api 例 子 主 要 是 用 来 演示 。 许 多 其 他 例子 的 确 依 赖 它 ， 因 此 ， 
对 于 它 如 何 工 作 有 一 个 高 层次 的 理解 。 在 99% 的 使 用 场景 下 ， 使 用 替代 技术 会 更 
好 。 


注意 A 因为 引用 计数 很 容易 出 现 然而 很 难 被 跟踪 ， 任何 需要 使 用 Python C-API 的 人 都 
应 该 阅读 官方 Python 文档 关于 对 象 、 类 型 和 引用 计数 的 部 分 。 此 外 ， 有 一 个 名 
为 cpychecker 的 工具 可 以 发 现 引 用 计数 的 党 T WIR. 


2.8.2.1 例子 
下 面 的 C 扩 展 模块 ， 让 来 自 标 准 math BS cos 函数 在 Python 中 可 用 : 
Int: 


/* FAPython-C-API#t2e3 Amath.hWcosHAANGIF */ 


#include <Python.h> 
#include <math.h> 


/* wrapped cosine function */ 
static PyObject* cos_func(PyObject* self, PyObject* args) 
{ 

double value; 

double answer; 


/* parse the input, from python float to c double */ 
if (!PyArg ParseTuple(args, "d", &value)) 
return NULL; 
/* if the above function returns -1, an appropriate Python exct 
* have been set, and the function simply returns NULL 
a 


/* call cos from libm */ 
answer - cos(value); 


/* construct the output from cos, from c double to python flo: 
return Py BuildValue("f", answer); 


j 


/* define functions in module */ 
static PyMethodDef CosMethods[] = 


( 


("cos func", cos func, METH VARARGS, "evaluate the cosine"}, 
(NULL, NULL, ©, NULL} 
3 


/* module initialization */ 
PyMODINIT FUNC 


initcos module(void) 


(void) Py InitModule("cos module", CosMethods); 


A 


如 你 所 见 ， 有 许多 样板 ， 既 包括 “massagey 的 参数 和 return 类 型 以 及 模块 初始 化 。 
尽管 随 着 扩展 的 增长 ， 这 些 东 西 中 的 一 些 是 分 期 偿还 ， 模 板 每 个 函数 需要 的 模板 还 
是 一 样 的 。 








标准 python 构 建 系 统 distutils 支持 从 setup.py 编译 C- 扩 展 , 非常 方便 : 
Int: 


from distutils.core import setup, Extension 


# 定义 扩展 模块 
cos module = Extension('cos module', sources-['cos module.c']) 


# 运行 Setup 
setup(ext modules-[cos module]) 


这 可 以 被 编译 : 


$ cd advanced/interfacing with c/python c api 


$ ls 
cos module.c setup.py 


$ python setup.py build ext --inplace 

running build ext 

building 'cos module' extension 

creating build 

creating build/temp.linux-x86 64-2.7 

gcc -pthread -fno-strict-aliasing -g -02 -DNDEBUG -g -fwrapv -03 -\ 
gcc -pthread -shared build/temp.linux-x86 64-2.7/cos module.o -L/h 


$ ls 
build/ cos module.c cos module.so setup.py 





e build ext 是 构建 扩展 模块 
e --inplace 将 把 编译 后 的 扩展 模块 输出 到 当前 目录 


文件 cos module.so 包含 编译 后 的 扩展 ， 我 们 可 以 在 IPython 解 释 器 中 加 载 它 : 
Int: 


In [1]: import cos module 


In [2]: cos module? 


Type: module 
String Form:«module 'cos module' from 'cos module.so'» 
File: /home/esc/git -working/scipy-lecture-notes/advanced/inte 


Docstring: «no docstring> 


In [3]: dir(cos_module) 
Out[3]: [* doc ', ‘file ', '_ name ', * package  ', ‘cos fut 





In [4]: cos module.cos func(1.0) 
Out[4]: 0.5403023058681398 


In [5]: cos module.cos func(0.0) 
Out[5]: 1.0 


In [6]: cos module.cos func(3.14159265359) 
Out[7]: -1.0 


二 — HE 
现在 我 们 看 一 下 这 有 多 强壮 : 
In []: 





In [10]: cos module.cos func('foo') 


TypeError Traceback (most recent c: 
«ipython-input-10-11bee483665d» in <module>() 
----» 1 cos module.cos func('foo') 


TypeError: a float is required 


[s remm — n Pn—áÁ—À—— uem s 





2.8.2.2. Numpy x 


Numpy 模 拟 Python-C-APl, 自身 也 实现 了 C- 扩 展 , 产生 了 Numpy-C-API。 这 个 API 可 
以 被 用 来 创建 和 操作 来 自 C 的 Numpy 数 组 , 当 写 一 个 自 定义 的 C- 扩 展 。 也 可 以 看 一 
下 :参考 : advanced numpy 。 


注意 如 果 你 确实 需要 使 用 Numpy C-API 参 考 关 于 Arrays 和 lterators 的 文档 。 


下 列 的 例子 显示 如 何 将 Numpy 数 组 作为 参数 传递 给 函数 ， 以 及 如 果 使 用 ( 旧 )Numpy- 
C-API 在 Numpy 数 组 上 和 迭代。 它 只 是 将 一 个 数组 作为 参数 应 用 到 来 自 math.h 的 
cosine 函 数 ， 并 且 返 回 生 成 的 新 数组 。 


In []: 


/* f&FNumpy-C-APIZHESEBImath.hBgcosPRZX . */ 


#include <Python.h> 
#include <numpy/arrayobject.h> 
#include <math.h> 


/* #14&cosineRR */ 
static PyObject* cos_func_np(PyObject* self, PyObject* args) 
{ 


PyArrayObject *in array; 

PyObject *out array; 

NpyIter *in iter; 

NpyIter *out iter; 

NpyIter IterNextFunc *in iternext; 
NpyIter IterNextFunc *out iternext; 


/* parse single numpy array argument */ 
if (!PyArg ParseTuple(args, "O!", &PyArray Type, &in array)) 
return NULL; 


/* construct the output array, like the input array */ 
out array - PyArray NewLikeArray(in array, NPY ANYORDER, NULL, 
if (out array -- NULL) 

return NULL; 


/* create the iterators */ 
in iter = NpyIter New(in array, NPY ITER READONLY, NPY_KEEPORDE 
NPY NO CASTING, NULL); 
if (in iter == NULL) 
goto fail; 


out iter = NpyIter New((PyArrayObject *)out array, NPY ITER RE/ 
NPY KEEPORDER, NPY NO CASTING, NULL); 
if (out iter == NULL) { 
NpyIter Deallocate(in iter); 
goto fail; 
j 


in iternext = NpyIter GetlIterNext(in iter, NULL); 
out iternext - NpyIter GetIterNext(out iter, NULL); 
if (in iternext -- NULL || out iternext -- NULL) ( 
NpyIter Deallocate(in iter); 
NpyIter Deallocate(out iter); 
goto fail; 
} 
double ** in dataptr = (double **) NpyIter GetDataPtrArray(in : 
double ** out dataptr - (double **) NpyIter GetDataPtrArray(out 


/* iterate over the arrays */ 
do { 
**out_dataptr = cos(**in dataptr); 
) while(in iternext(in iter) && out iternext(out iter)); 


/* clean up and return the result */ 
NpyIter Deallocate(in iter); 

NpyIter Deallocate(out iter); 

Py INCREF(out array); 

return out array; 


/* in case bad things happen */ 
fail: 
Py XDECREF(out array); 
return NULL; 


j 


/* FERIA ELE */ 
static PyMethodDef CosMethods[] = 


{ 
("cos func np", cos func np, METH VARARGS, 
"evaluate the cosine on a numpy array"), 
(NULL, NULL, ©, NULL} 
J; 


/* 模块 初始 化 */ 
PyMODINIT FUNC 
initcos module np(void) 


{ 
(void) Py_InitModule("cos_module_np", CosMethods); 
/* IMPORTANT: this must be called */ 
import_array(); 

} 


JE LLL E 


要 编译 这 个 模块 ， 我 们 可 以 再 用 distutils 。 但 是 我 们 需要 通过 使 用 
func:numpy.get. includeffá AX & £ f Numpy 3 #8: 


In [T: 





from distutils.core import setup, Extension 
import numpy 


# define the extension module 
cos module np - Extension('cos module np', sources-['cos module np 
include dirs-[numpy.get include()]) 


# run the setup 
setup(ext modules-[cos module np]) 





要 说 服 我 们 自己 这 个 方式 确实 有 效 ， 我 们 来 跑 一 下 下 面 的 测试 脚本 : 
In [ ]: 


import cos module np 
import numpy as np 
import pylab 


x = np.arange(0, 2 * np.pi, 0.1) 
y = cos module np.cos func np(x) 
pylab.plot(x, y) 
pylab.show() 

这 会 产生 以 下 的 图 像 : 


1.0 





0.5r 


0.0r 














2.8.3. Ctypes 
Ctypes 是 Python 的 一 个 外 来 函数 库 。 它 提供 了 C 兼 容 的 数据 类 型 ， 并 且 人 允许 在 DLLs 
或 者 共享 的 库 中 调用 函数 。 它 可 以 用 来 在 纯 Python 中 封装 这 些 库 。 
优点 
e Python 标 准 库 的 一 部 分 
e 不 需要 编译 
e 代码 封装 都 是 在 Python 中 
不 足 


e 需要 代码 作为 一 个 共享 的 库 (粗略 地 说 ， 在 windows 中 是 .ql//， 在 Linux 中 
是 .so， 在 Mac OSX 中 是 *.dylib) 
e 对 C++ 支持 并 不 好 


2.8.3.1 例子 
如 前 面 提 到 的 ， 代 码 封装 完全 在 Python 中 。 
In [1]: 


""" 用 ctypes 封 装 来 自 math.h 的 cos WA  """ 


import ctypes 
from ctypes.util import find library 


# find and load the library 

libm = ctypes.cdll.LoadLibrary(find library('m')) 
# set the argument type 

libm.cos.argtypes - [ctypes.c double] 

# set the return type 

libm.cos.restype - ctypes.c double 


def cos func(arg): 
tir 封装 math.h cosBEgÉR ''' 
return libm.cos(arg) 


e 寻找 和 加 载 库 可 能 非常 依赖 于 你 的 操作 系统 ， 检 查 文档 来 了 解 细节 

e 这 可 能 有 些 欺骗 性 ， 因 为 math 库 在 系统 中 已 经 是 编译 模式 。 如 果 你 想 要 封装 一 
个 内 置 的 库 ， 需 要 先 编译 它 ， 可 能 需要 或 者 不 需要 额外 的 工作 。 我 们 现在 可 以 
像 前 面 一 样 使 用 这 个 库 : 


In []: 


In [1]: import cos module 


In [2]: cos module? 


Type: module 
String Form:«module 'cos module' from 'cos module.py'» 
File: /home/esc/git -working/scipy-lecture-notes/advanced/inte 


Docstring: <no docstring> 


In [3]: dir(cos_module) 


Out [3]: 
['__builtins _', 
Oc 
ef le 
' name ', 


' package ^, 
'cos_func', 
'ctypes', 

'find library', 
'libm' ] 


In [4]: cos_module.cos_func(1.0) 
Out[4]: 0.5403023058681398 


In [5]: cos_module.cos_func(0.0) 
Out[5]: 1.0 


In [6]: cos module.cos func(3.14159265359) 
Out[6]: -1.0 


mi E = 





2.8.3.2 Numpy 支 持 


Numpy 包 含 一 些 和 与 ctypes 交 互 的 支持 。 特 别 是 支持 将 特定 Numpy 数 组 属性 作为 
ctypes 数 据 类 型 研究 ， 并 且 有 回 数 可 以 将 C 数 组 和 Numpy 数 据 互相 转换 。 


更 多 信息 ， 可 以 看 一 下 Numpy 手 册 的 对 应 部 分 或 
者 numpy.ndarray.ctypes 和 numpy.ctypeslib 的 API 文 档 。 


对 于 下 面 的 例子 ， 让 我 们 假设 一 个 C 画 数 ， 输 入 输出 都 是 一 个 数组 ， 计 算 输 入 数组 
的 cosine 并 将 结果 输出 为 一 个 数组 。 


库 包含 下 列 头 文件 (尽管 在 这 个 例子 中 并 不 是 必须 这 样 ， 为 了 完整 ， 我 们 还 是 把 这 
一 步 列 出 来 ): 


In []: 


void cos doubles(double * in array, double * out array, int size); 


4 — BE 








这 个 图 数 实现 在 下 列 的 C 源 文件 中 : 
In []: 


Zinclude <math.h> 


/* Compute the cosine of each element in in array, storing the re: 
* out array. */ 
void cos doubles(double * in array, double * out array, int size){ 
aT 
for(i=0;i<size;it+){ 
out_array[i] = cos(in_array[i]); 





并 且 因 为 这 个 库 是 纯 C 的 ， 我 们 不 能 使 用 distutils 来 编译 ， 但 是 ， 必 须 使 
用 make 和 gcc 的 组 合 : 


In []: 


m.PHONY : clean 


libcos doubles.so : cos doubles.o 
gcc -shared -Wl,-soname,libcos doubles.so -o libcos doubles.so 


cos doubles.o : cos doubles.c 
gcc -c -fPIC cos doubles.c -o cos doubles.o 


clean : 
-rm -vf libcos doubles.so cos doubles.o cos doubles.pyc 


Ro LL 





接 下 来 ， 我 们 可 以 将 这 个 库 编 译 到 共享 的 库 (on Linux) libcos doubles.so : 
In [1 


$ ls 


cos doubles.c cos_doubles.h cos_doubles.py makefile test cos « 
$ make 


gcc -c -fPIC cos doubles.c -o cos doubles.o 


gcc -shared -Wl,-soname,libcos doubles.so -o libcos doubles.so cos. 
$ 1s 


cos_doubles.c cos_doubles.o libcos doubles.so* test cos double: 
cos doubles.h cos doubles.py makefile 


g = — 








现在 我 们 可 以 继续 通过 ctypes 对 Numpy 数 组 的 直接 支持 (一 定 程度 上 ) 来 封装 这 个 
库 : 


In []: 


"on 封装 一 个 使 用 numpy .ctypeslib 接 受 C 双 数组 作为 输入 的 例子 。""" 


import numpy as np 
import numpy.ctypeslib as npct 
from ctypes import c int 


4 cos doublesBS9ig A X 4 
H 必须 是 双 数 组 ， 有 相 邻 的 单 维 度 
array 1d double = npct.ndpointer(dtype=np.double, ndim-1, flags-'C( 


# 加 载 库 ， 运 用 numpy 机 制 
libcd = npct.load library("libcos doubles", ".") 


# 设置 反馈 类 型 和 参数 类 型 
libcd.cos doubles.restype = None 
libcd.cos doubles.argtypes = [array 1d double, array 1d double, c : 


def cos doubles func(in array, out array): 
return libcd.cos doubles(in array, out array, len(in array)) 


B —— -————— ———Ó5À-—«"ÀÁe—r 


e 注意 临近 单 维度 Numpy 数 组 的 固有 限制 ， 因 为 C 画 数 需 要 这 类 的 缓存 器 。 

。 也 需要 注意 输出 数组 也 需要 是 预 分 配 的 ， 例 如 numpy.zeros() 和 档 数 籽 用 它 的 绥 
存 器 来 写 。 

e 尽管 cos_doubles 辑 数 的 原始 签名 是 ARRAY , ARRAY , int 最 终 
的 cos doubles func 需要 两 个 Numpy 数 组 作为 参数 。 


并 且 ， 和 前 面 一 样 ， 我 们 我 要 为 自己 证 明 一 下 它 是 有 效 的 : 
In [ ]: 





import numpy as np 
import pylab 
import cos doubles 


x 
y 


= np.arange(0, 2 * np.pi, 0.1) 

= np.empty_like(x) 
cos_doubles.cos_doubles_func(x, y) 
pylab.plot(x, y) 

pylab.show() 























2.8.4 SWIG 


SWIG, 简化 封装 接口 生成 器 ， 是 一 个 联接 用 C 和 C++ 写 的 程序 与 需要 高 级 程序 语 
言 ， 包 括 Python 的 软件 开发 工具 。SWIG 的 重点 在 于 它 可 以 为 你 自动 生成 封装 器 代 
码 。 尽 管 从 编程 时 间 上 来 说 这 是 一 个 优势 ， 但 是 同时 也 是 一 个 负担 。 生 成 的 文件 通 
常 很 大 ， 并 且 可 能 并 不 是 人 类 可 读 的 ， 封 装 过 程 造 成 的 多 层 间接 引 用 可 能 很 难 理 
解 。 

注意 自动 生成 的 C 代 码 使 用 Python-C-Api。 

优势 


e 给 定 头 部 可 以 自动 封装 整个 库 
e 在 C++ 中 表现 良好 


不 足 
e 自动 生成 的 文件 很 庞大 


。 如 果 出 错 很 难 debug 
e 陡 内 的 学 习 曲 线 


2.8.4.1 例子 


让 我 们 想象 我 们 的 cos 函数 存在 于 用 C 写 的 cos module 中 ， 包 含 在 源 文 
件 cos module.c 中 : 


In [ ]: 
Zinclude <math.h> 


double cos func(double arg){ 
return cos(arg); 


头 文件 cos module.h : 
Int: 


double cos func(double arg); 
尽管 我 们 的 目的 是 将 cos func 暴露 给 Python。 要 用 SWIG 来 完成 这 个 目的 ， 我 们 
需要 写 一 个 包含 SWIG 指 导 的 接口 文件 。 
In [ ]: 

/* Example of wrapping cos function from math.h using SWIG. */ 


%module cos module 





%{ 
/* the resulting C file should be built as a python extension ' 
#define SWIG FILE WITH INIT 
/* Includes the header in the wrapper code */ 
#include "cos module.h" 
%} 


/* Parse the header file to generate wrappers */ 
%include "cos_module.h" 


EE 


如 你 所 见 ， 这 里 不 需要 太 多 的 代码 。 对 于 这 个 简单 的 例子 ， 它 简单 到 只 需要 在 接口 
文件 中 包含 一 个 头 文 件 ， 来 向 Python 暴 露 贸 数 。 但 是 ，SWIG 确 实 人 允许 更 多 精细 包 
含 或 者 排除 在 头 文件 中 发 现 的 画 数 ， 细 节 检 查 一 下 文档 。 


生成 编译 的 封装 器 是 一 个 两 阶段 的 过 程 ; 


e 在 接口 文件 上 运行 swig 可 执行 文件 来 生成 文件 cos module wrap.c ,其 源 
文件 是 自动 生成 的 Python C-extension 和 cos module.py , 是 自动 生成 的 
Python 模块 。 





e 编译 cos module wrap.c 到 cos module.so 。 幸 运 的 ， distutils 知 
道 如 何 义理 SWIG 接 口 文 件 , 因此 我 们 的 setup.py 是 很 简单 的 


In [ ]: 
from distutils.core import setup, Extension 


setup(ext modules-[Extension(" cos module", 
sources-["cos module.c", "cos module.i"])]) 


In []: 


$ cd advanced/interfacing with c/swig 


$ ls 
cos module.c cos module.h cos module.i  setup.py 


$ python setup.py build ext --inplace 

running build ext 

building ' cos module' extension 

swigging cos module.i to cos module wrap.c 

swig -python -o cos module wrap.c cos module.i 

creating build 

creating build/temp.linux-x86 64-2.7 

gcc -pthread -fno-strict-aliasing -g -02 -DNDEBUG -g -fwrapv -03 -\ 
gcc -pthread -fno-strict-aliasing -g -02 -DNDEBUG -g -fwrapv -03 -\ 
gcc -pthread -shared build/temp.linux-x86 64-2.7/cos module.o built 


$ ls 
build/ cos module.c cos module.h cos module.i dcos module.py  « 


[a] ge | 
我 们 可 以 像 前 面 的 例子 中 那样 加 载 和 运行 cos module : 
In[T: 





In [1]: import cos module 


In [2]: cos module? 


Type: module 
String Form:«module 'cos module' from 'cos module.py'» 
File: /home/esc/git -working/scipy-lecture-notes/advanced/inte 


Docstring: <no docstring> 


In [3]: dir(cos_module) 


Out [3]: 
['__builtins _', 
Oc 
ef le 
' name ', 


. package  ', 

' cos module', 

' newclass', 

' object', 

' Swig getattr', 

' Swig property', 

' Swig repr', 

' Swig setattr', 

' Swig setattr nondynamic', 
'cos func'] 


In [4]: cos module.cos func(1.0) 
Out[4]: 0.5403023058681398 


In [5]: cos module.cos func(0.0) 
Out[5]: 1.0 


In [6]: cos module.cos func(3.14159265359) 
Out[6]: -1.0 





接 下 来 我 们 测试 一 下 强壮 性 ， 我 们 看 到 我 们 可 以 获得 一 个 更 多 的 错误 信息 (虽然 , 严 
格 来 讲 在 Python 中 没有 double 类 型 ): 


In 


[]: 


In [7]: cos module.cos func('foo') 


TypeError Traceback (most recent c: 
«ipython-input-7-11bee483665d» in «module»() 
----» 1 cos module.cos func('foo') 


TypeError: in method 'cos func', argument 1 of type 'double' 











2.8.4.2 Numpy 支持 


Numpy 在 numpy.i 文件 中 提供 了 SWIG 的 支持 。 这 个 接口 文件 定义 了 许多 所 谓 的 
typemaps， 支 持 了 Numpy 数 组 和 C-Arrays 的 转化 。 在 接 下 来 的 例子 中 ， 我 们 将 快 
速 看 一 下 typemaps 实 际 是 如 何 工作 的 。 


我 们 有 相同 的 cos doubles WA, tEctypesHIF AH: 
In []: 


void cos doubles(double * in array, double * out array, int size); 
LEN LEE LS LEEELELLLLSXÓASM 1 
In [ ]: 


Zinclude <math.h> 


/* Compute the cosine of each element in in array, storing the re: 
* out array. */ 
void cos doubles(double * in array, double * out array, int size){ 
int i; 
for (i=0;i<size;i++){ 
out array[i] = cos(in array[i]); 





使 用 了 SWIG 接 口 文件 封装 了 cos doubles func : 
Int: 


/* Example of wrapping a C function that takes a C double array a: 
* numpy typemaps for SWIG. */ 


%module cos doubles 
%{ 
/* the resulting C file should be built as a python extension ' 
#define SWIG FILE WITH INIT 
/* Includes the header in the wrapper code */ 
#include "cos doubles.h" 
%} 





/* include the numpy typemaps */ 
%include "numpy.i" 
/* need this for correct module initialization */ 
%init %{ 
import_array(); 
%} 


/* typemaps for the two arrays, the second will be modified in-pl: 
%apply (double* IN ARRAY1, int DIM1) {(double * in array, int size. 
%apply (double* INPLACE ARRAY1, int DIM1) {(double * out array, inl 


/* Wrapper for cos doubles that massages the types */ 
%inline %{ 
/* takes as input two numpy arrays */ 
void cos_doubles_func(double * in_array, int size_in, double * 
/* calls the original funcion, providing only the size of 
cos_doubles(in_array, out_array, size_in); 





e 要 使 用 Numpy 的 typemaps, 我 们 需要 包含 numpy.i 文件 。 

e 观察 一 下 对 import array() 的 调用 ， 这 个 模块 我 们 已 经 在 Numpy-C-API 例 
子 中 遇 到 过 。 

e 因为 类 型 映射 只 支持 ARRAY、SIZE 的 签名 ， 我 们 需要 将 cos_doubles 封 装 为 
cos_doubles_func， 接 收 两 个 数组 包括 大 小 作为 输入 。 

e 与 SWIG 不 同 的 是 , 我 们 并 没有 包含 cos doubles.h 头 部 ， 我 们 并 不 需要 暴露 
给 Python， 因 为 ， 我 们 通过 cos doubles func 暴露 了 相关 的 功能 。 


并 且 ， 和 之 前 一 样 ， 我 们 可 以 用 distutils 来 封装 这 个 回 数 : 
In [1]: 


from distutils.core import setup, Extension 
import numpy 


setup(ext modules-[Extension(" cos doubles", 
sources-["cos doubles.c", "cos doubles.i"], 
include dirs-[numpy.get include()])]) 


和 前 面 一 样 ， 我 们 需要 用 include dirs 来 制定 位 置 。 
Int: 


$ ls 

cos doubles.c cos doubles.h cos doubles.i numpy.i setup.py te: 

$ python setup.py build ext -i 

running build ext 

building ' cos doubles' extension 

swigging cos doubles.i to cos doubles wrap.c 

swig -python -o cos doubles wrap.c cos doubles.i 

cos doubles.i:24: Warning(490): Fragment 'NumPy Backward Compatibi. 

cos doubles.i:24: Warning(490): Fragment 'NumPy Backward Compatibi. 

cos doubles.i:24: Warning(490): Fragment 'NumPy Backward Compatibi. 

creating build 

creating build/temp.linux-x86 64-2.7 

gcc -pthread -fno-strict-aliasing -g -02 -DNDEBUG -g -fwrapv -03 -\ 

gcc -pthread -fno-strict-aliasing -g -02 -DNDEBUG -g -fwrapv -03 -\ 

In file included from /home/esc/anaconda/lib/python2.7/site-packagt 
from /home/esc/anaconda/lib/python2.7/site-packagt 
from /home/esc/anaconda/lib/python2.7/site-packagt 
from cos doubles wrap.c:2706: 

/home/esc/anaconda/lib/python2.7/site-packages/numpy/core/include/ti 

gcc -pthread -shared build/temp.linux-x86  64-2.7/cos doubles.o bui. 

$ ls 

build/ cos doubles.h cos doubles.py cos doubles wrap.c 

cos doubles.c cos doubles.i | cos doubles.so* numpy.i 


do HB 
并 且 ， 和 前 面 一 样 ， 我 们 来 验证 一 下 它 工作 正常 : 
In [ ]: 





import numpy as np 
import pylab 
import cos doubles 


x 
y 


= np.arange(0, 2 * np.pi, 0.1) 

- np.empty like(x) 

cos doubles.cos doubles func(x, y) 
pylab.plot(x, y) 

pylab.show() 

















2.8.5 Cython 


Cython Bim E Cay BATA 类 Python 语言 ， 也 是 这 种 语言 的 编译 器 。Cython 语 言 是 
Python 的 超 集 ， 带 带 有 额外 的 结构 ， ERA FR CERBÉURDC € 类 型 的 注释 变量 和 类 属 
性 。 在 这 个 意义 上 ， 可 以 称 之 为 带 有 类 型 的 Python。 


除了 封装 原生 代码 的 基础 应 用 案例 ，Cython 也 支持 额外 的 应 用 案例 ， 即 交互 优化 。 
从 根本 上 来 说 ， 从 纯 Python 脚 本 开始 ， 向 瓶颈 代码 逐 淅 增加 Cython 类 型 来 优化 那些 
确实 有 影响 的 代码 。 


在 这 种 情况 下 ， 与 SWIG 很 相似 ， 因 为 代码 可 以 自动 生成 ， 但 是 ， 从 另 一 个 角度 来 
说 ， 又 与 ctypes 很 类 似 ， 因 为 ， 封 装 代码 (AMD) 是 用 Python 写 的 。 


尽管 其 他 自动 生成 代码 的 解决 方案 很 难 debug (比如 SWIG) ，Cython 有 一 个 GNU 
debugger 扩 展 来 帮助 debug Python，Cython 和 C 代 码 。 


注意 自动 生成 的 C 代 码 使 用 Python-C-Api。 
优点 


e 类 Python 语言 来 写 扩 展 

e 自动 生成 代码 

支持 增 量 优化 

包含 一 个 GNU debuggery R 

支持 C++ (从 版 本 0.13) 不 足 

必须 编译 

需要 额外 的 库 ( 只 是 在 build 的 时 候 , 在 这 个 问题 中 ， 可 以 通过 运送 生成 的 C 文 件 


来 克服 ) 


2.8.5.1 例子 


cos module 的 主要 Cython 代 码 包 含 在 文件 cos module.pyx FP: 
In []: 


""" Example of wrapping cos function from math.h using Cython. """ 


cdef extern from "math.h": 
double cos(double arg) 


def cos func(arg): 
return cos(arg) 


1 D 
注意 额外 的 关键 词 ， 比 如 cdef 和 extern 。 同 时 ， cos func 也 是 纯 Python。 


和 前 面 一 样 ， 我 们 可 以 使 用 标准 的 distutils 模块 ， 但 是 ， 这 次 我 们 需要 一 些 来 
自 于 cython.Distutils 的 更 多 代码 : 


In]: 


from distutils.core import setup, Extension 
from Cython.Distutils import build_ext 


setup( 
cmdclass={'build_ext': build_ext}, 
ext modules-[Extension("cos module", ["cos module.pyx"])] 


编译 这 个 模块 : 
In T: 


$ cd advanced/interfacing with c/cython 

$ ls 

cos module.pyx  setup.py 

$ python setup.py build ext --inplace 

running build ext 

cythoning cos module.pyx to cos module.c 

building 'cos module' extension 

creating build 

creating build/temp.linux-x86 64-2.7 

gcc -pthread -fno-strict-aliasing -g -02 -DNDEBUG -g -fwrapv -03 -\ 
gcc -pthread -shared build/temp.linux-x86. 64-2.7/cos module.o -L/h 
$ ls 

build/ cos module.c cos module.pyx cos module.so* setup.py 





In [1]: import cos module 


In [2]: cos module? 


Type: module 
String Form:«module 'cos module' from 'cos module.so'» 
File: /home/esc/git -working/scipy-lecture-notes/advanced/inte 


Docstring: <no docstring> 


In [3]: dir(cos_module) 


Out[3]: 

[' builtins_', 
"doc 5. 
Petite: 

' name ', 
' package  ', 
t test. “y 


cos func'] 


In [4]: cos module.cos func(1.0) 
Out[4]: 0.5403023058681398 


In [5]: cos module.cos func(0.0) 
Out[5]: 1.0 


In [6]: cos module.cos func(3.14159265359) 
Out[6]: -1.0 


E —À 
并 且 ， 测 试 一 下 强壮 性 ， 我 们 可 以 看 到 我 们 得 到 了 更 好 的 错误 信息 
In [ ]: 





In [7]: cos module.cos func('foo') 


TypeError Traceback (most recent c: 
«ipython-input-7-11bee483665d» in «module»() 
----» 1 cos module.cos func('foo') 
/home/esc/git-working/scipy-lecture-notes/advanced/interfacing witl 
TypeError: a float is required 
‘| — Ë 
此 外 ， 不 需要 Cython 完 全 传输 到 C math 库 的 声明 ， 上 面 的 代码 可 以 简化 为 : 
In [ ]: 








""" Simpler example of wrapping cos function from math.h using Cytl 
from libc.math cimport cos 


def cos func(arg): 
return cos(arg) 


| = uu 
在 这 种 情况 下 ， cimport 语句 用 于 导入 cos WH, 





2.8.5.2 Numpy 支 持 


Cython 通 过 numpy .pyx 文件 支持 Numpy， 人 允许 你 为 你 的 Cython 代 码 添 加 Numpy 
数组 类 型 ， 即 就 像 指定 变量 i 是 int 类 型 ， 你 也 可 以 指定 变量 a 是 带 有 给 定 

的 dtype 的 numpy.ndarray 。 同 时 ， 同 时 特定 的 优化 比如 边际 检查 也 是 支持 

的 。 看 一 下 Cython 文 档 的 对 应 部 分 。 如 果 你 想 要 将 Numpy 数 组 作为 C 数 组 传递 给 
Cython 封 装 的 C 函 数 ， 在 Cython wiki 上 有 对 应 的 部 分 。 


在 下 面 的 例子 中 ， 我 们 将 演示 如 何 用 Cython 来 封装 类 似 的 cos_doubles o 
In [ ]: 

void cos doubles(double * in array, double * out array, int size); 
[D | ——— ————ÁÀ— ÀÀ— áuÓEEEg — 11 
In [ ]: 


Zinclude <math.h> 


/* Compute the cosine of each element in in array, storing the re: 
* out array. */ 
void cos doubles(double * in array, double * out array, int size){ 
int i; 
for(i=0;i<size;i++){ 
out array[i] = cos(in array[i]); 
} 


} 


«| — 








这 个 画 数 使 用 下 面 的 Cython 代 码 来 封 狼 cos doubles func : 
In []: 


""" Example of wrapping a C function that takes C double arrays as 
the Numpy declarations from Cython """ 


# cimport the Cython declarations for numpy 
cimport numpy as np 


# if you want to use the Numpy-C-API from Cython 
# (not strictly necessary for this example, but good practice) 
np.import array() 


# cdefine the signature of our c function 
cdef extern from "cos doubles.h": 
void cos doubles (double * in array, double * out array, int s: 


# create the wrapper code, with numpy type annotations 
def cos doubles func(np.ndarray[double, ndim=1, mode="c"] in array 
np.ndarray[double, ndim=1, mode="c"] out arra 
cos doubles(«double*» np.PyArray DATA(in array), 
«double*» np.PyArray DATA(out array), 
in array.shape[0]) 


Aoo ëY 





可 以 使 用 distutils 来 编译 : 
In [ ]: 


from distutils.core import setup, Extension 
import numpy 
from Cython.Distutils import build ext 


setup( 
cmdclass={'build_ext': build ext], 
ext modules-[Extension("cos doubles", 
sources-[" cos doubles.pyx", "cos doubles.c"], 
include dirs-[numpy.get include()])], 


与 前 面 的 编译 Numpy 例 子 类 似 ， 我 们 需要 include dirs 选项 。 
Int: 


$ ls 

cos doubles.c cos doubles.h _cos_doubles.pyx setup.py test cos. 

$ python setup.py build ext -i 

running build ext 

cythoning cos doubles.pyx to cos doubles.c 

building 'cos doubles' extension 

creating build 

creating build/temp.linux-x86 64-2.7 

gcc -pthread -fno-strict-aliasing -g -02 -DNDEBUG -g -fwrapv -03 -\ 

In file included from /home/esc/anaconda/lib/python2.7/site-packagt 
from /home/esc/anaconda/lib/python2.7/site-packagt 
from /home/esc/anaconda/lib/python2.7/site-packagt 
from cos doubles.c:253: 

/home/esc/anaconda/lib/python2.7/site-packages/numpy/core/include/ti 

/home/esc/anaconda/lib/python2.7/site-packages/numpy/core/include/ti 

gcc -pthread -fno-strict-aliasing -g -02 -DNDEBUG -g -fwrapv -03 -\ 

gcc -pthread -shared build/temp.linux-x86  64-2.7/ cos doubles.o bu: 

$ ls 

build/ cos doubles.c cos doubles.c cos doubles.h | cos doubles 


ml _# 
和 前 面 一 样 ， 我 们 来 验证 一 下 它 是 有 效 的 : 
In [ ]: 





import 
import 
import 


x 
y 


np. 
np. 


numpy as np 
pylab 
cos_doubles 


arange(0, 2 * np.pi, 0.1) 
empty like(x) 


cos doubles.cos doubles func(x, y) 
pylab.plot(x, y) 
pylab.show() 














2.8.6 总 结 
这 个 部 分 演示 了 四 种 与 原生 代码 交互 的 技术 。 下 表 概 述 了 这 些 技术 的 一 些 方面 。 
Part of Numpy 
x CPython Compiled Autogenerated Support 
Python-C- 
API True True False True 
Ctypes True False False True 
Swig False True True True 
Cython False True True True 


在 上 面 的 技术 中 ，Cython 是 最 现代 最 高 级 的 。 特 别 是 ， 通 过 为 Python 代码 添加 类 型 
来 增 量 优化 代码 的 技术 是 惟一 的 。 


2.8.7 Further Reading and References 


Gaël Varoduaux 关 于 避免 数据 复制 的 博客 给 出 了 一 些 如 何 精明 的 处 理 内 存 管理 的 见 
解 。 如 果 你 在 大 数据 量 时 出 现 问题 ， 可 以 回 到 这 里 寻找 一 些 灵感 。 


2.8.8 练习 


因为 这 是 一 个 新 部 分 ， 练 习 更 像 是 一 个 接 下 来 应 该 查看 什么 的 指示 器 ， 因 此 ， 看 一 
下 那些 你 觉得 更 有 趣 的 部 分 。 如 果 你 有 关于 练习 更 好 点 子 ， 请 告诉 我 们 ! 


e 下 载 每 个 例子 的 源码 ， 并 且 在 你 的 机 器 上 运行 并 编译 他 们 。 

e 对 每 个 例子 做 一 些 修改 ， 并 且 自 己 验 证 一 下 是 否 有 效 。 ( 比如 ， 将 cos 改 为 
sin。) 

e 绝 大 多 数 例子 ， 特 别 是 包含 了 Numpy 的 例子 ， 可 能 还 是 比较 脆弱 ， 对 输入 错误 
反应 较 差 。 找 一 些 方法 来 让 例子 月 涡 ， 找 出 问题 所 在 ， 并 且 设 计 潜 在 的 解决 方 


案 。 这 些 是 有 些 点 子 : 


o APA 
o 输入 输出 数组 长 度 不 一 致 
o 多 维度 数据 
o 空 数组 
o non-double 类 型 数组 
e 使 用 %timeit IPython 魔 法 函数 来 测量 不 同 解 决 方案 的 执行 时 间 


2.8.8.1 Python-C-API 


e |ZckNumpyfil-- ELSBERZAUS ATHALI BR, BOTARA EMAMT, ik 
它 与 其 他 的 Numpy 例 子 一 致 。 

e 修改 这 个 例子 ， 以 便 这 个 琅 数 只 有 一 个 输入 数组 ， 在 原 地 修改 这 个 函数 。 

e 试 着 用 新 的 Numpy 和 迭代 协议 修改 例子 。 如 果 你 刚好 获得 了 一 个 可 用 的 解决 方 
案 ， 请 将 其 提交 一 个 请 求 到 github。 

e 你 可 能 注意 到 了 ，Numpy-C-API 例 子 只 是 Numpy 例 子 没 有 封 
装 cos doubles 但 是 直接 将 cos 函数 应 用 于 Numpy 数 组 的 元 素 上 。 这 样 做 
与 其 他 技术 相 比 有 什么 优势 。 

e 你 可 以 只 用 Numpy-C-API 来 封装 cos doubles 。 你 可 能 需要 确保 数组 有 正确 
的 类 型 ， 并 且 是 单 维度 和 内 存 临 近 。 


2.8.8.2 Ctypes 


e 修改 Numpy 例 子 以 便 cos doubles func 为 你 处 理 预 分 配 ， 让 它 更 像 Numpy- 
C-API 例 子 。 


2.8.8.3. SWIG 


e 看 一 下 SWIG 自 动 生成 的 代码 ， 你 能 理解 多 少 ? 

e 修改 Numpy 例 子 ， 以 便 cos_doubles_func 为 你 处 理 预 处 理 ， 让 它 更 像 
Numpy-C-API 例 子 。 

e 修改 cos doubles C 画 数 ， 以 便 它 返 回 分 配 的 数组 。 你 可 以 用 SWIG 
typemaps 类 封装 吗 ? 如 果 不 可 以 ， 为 什么 不 可 以 ? 对 于 这 种 特殊 的 情况 有 没有 
什么 变通 方法 ? (提示 : 你 知道 输出 数组 的 大 小 , 因此 ， 可 以 从 返回 
的 double \* 构建 Numpy 数 组 。 


2.8.8.4 Cython 


e 看 一 下 Cython 自 动 生成 的 代码 。 仔 细 看 一 下 Cython 插 入 的 一 些 评论 。 你 能 看 到 
BEATZ? 

e 看 一 下 Cython 文 档 中 与 Numpy 工 作 的 部 分 , 学 习 一 下 如 何 使 用 Numpy 增 量 优 化 
python 脚 本 。 

e 修改 Numpy 例 子 ， 以 便 cos doubles func 为 你 处 理 预 处 理 ， 让 它 更 像 
Numpy-C-API 例 子 。 


3.1 Python 中 的 统计 学 
In [1]: 


?$matplotlib inline 
import numpy as np 


作者 : Gaël Varoquaux 
必要 条 件 


e 标准 Python 科学 计算 环境 (numpy, scipy matplotlib) 
e Pandas 

e Statsmodels 

e Seaborn 


要 安装 Python 及 这 些 依赖 ， 推 荐 下 载 Anaconda Python 或 Enthought Canopy, 如 果 
你 使 用 Ubuntu 或 其 他 linux 更 应 该 使 用 包 管 理 器 。 


也 可 以 看 一 下 : Python 中 的 贝 叶 斯 统计 


本 章 并 不 会 涉及 贝 叶 斯 统计 工具 。 适 用 于 贝 叶 斯 模型 的 是 PyMC, 在 Python 中 实现 了 
概率 编程 语言 。 


为 什么 统计 学 要 用 Python? 


R 是 一 门 专注 于 统计 学 的 语言 。Python 是 带 有 统计 学 模块 的 通用 编程 语言 。R 比 
Python 有 更 多 的 统计 分 析 功 能 ， 以 及 专用 的 语法 。 但 是 ， 当 面 对 构 建 复杂 的 分 析 管 
道 ， 混 合 统计 学 以 及 例如 图 像 分 析 、 文 本 挖掘 或 者 物理 实验 控制 ，Python 的 富有 就 
是 物价 的 优势 。 


内 容 


e 数据 表征 和 交互 
o 数据 作为 表格 
o panda data-frame 
假设 检验 : 对 比 两 个 组 
o Student's t-test: 最 简单 的 统计 检验 
o 配对 实验 : 对 同一 个 体 的 重复 测量 
线性 模型 、 多 因素 和 方差 分 析 
o 用 "公式 ”来 在 Python 中 指定 统计 模型 
o 多 元 回 为 : 包含 多 元 素 
o 事后 假设 检验 : 方差 分 析 (ANOVA) 
更 多 的 可 视 化 : 用 seaborn 来 进行 统计 学 探索 
o 配对 图 : 散 点 矩阵 
o Implot: 绘制 一 个 单 变 量 回 为 
交互 作用 检验 


免责 声明 : 性 别 问 题 


本 教程 中 的 一 些 实例 选 自 性 别 问题 。 其 原因 是 在 这 种 问题 上 这 种 控制 的 声明 实际 上 
影响 了 很 多 人 。 


3.1.1 数据 表征 和 交互 


3.1.1.1 数据 作为 表格 


统计 分 析 中 我 们 关注 的 设 定 是 通过 一 组 不 同 的 属性 或 特征 来 描述 多 个 观察 或 样本 。 
然后 这 个 数据 可 以 被 视 为 2D 表 格 ， 或 矩阵 ， 列 是 数据 的 不 同属 性 ， 行 是 观察 。 例 如 
包含 在 examples/brain_size.csv 的 数据 : 


ni F "Gender"; "FSIQ" : "VIQ" F "PIQ" : "Weight" ; "Height" : "MRI Count" Jis WO : "Eg 


3.1.1.2 panda data-frame 


我 们 将 会 在 来 自 pandas 模 块 的 pandas.DataFrame 中 存储 和 操作 这 个 数据 。 它 是 
子 表 格 程序 在 Python 中 的 一 个 等 价 物 。 它 与 2D numpy 数据 的 区 别 在 于 列 带 有 名 
字 ， 可 以 在 列 中 存储 混合 的 数据 类 型 ， 并 且 有 精妙 的 选择 和 透视 表 机 制 。 


3.1.1.2.1 创建 dataframes: 读 取 数据 文件 或 转化 数组 


从 CSV 文 件 读 取 : 使 用 上 面 的 CSV 文 件 ， 给 出 了 大 脑 大 小 重量 和 IQ (Willerman et al. 
1991) 的 观察 值 , 数据 混合 了 数量 值 和 类 型 值 : 


In [3]: 
import pandas 
data = pandas.read csv('examples/brain size.csv', sep-';', na valu 
data 
B= 


Out[3]: 





ee Gender FSIQ VIQ PlQ Weight Height MRI 
0 1 Female 133 132 124 118 645 816 
1 2 Male 140 150 124 NaN 725 100 
2 |3 Male 139 123 150 143 73.3 103% 
3 |4 Male 133 129 128 172 68.8 965: 
4 |5 Female 137 132 134 147 650 ^ 951 


Female 
Female 
Female 
Male 
Male 
Female 
Male 
Male 
Female 
Female 
Female 
Female 
Male 
Female 
Male 
Male 
Male 
Female 
Male 
Female 
Male 
Female 
Male 
Female 
Female 
Female 
Male 
Male 
Male 


Female 


99 
138 
92 
89 
133 
132 
141 
135 
140 
96 
83 
132 
100 
101 
80 
83 
97 
135 
139 
91 
141 
85 
103 
77 
130 
133 
144 
103 
90 
83 


90 
136 
90 
93 
114 
129 
150 
129 
120 
100 
71 
132 
96 
112 
77 
83 
107 
129 
145 
86 
145 
90 
96 
83 
126 
126 
145 
96 
96 
90 


110 
131 
98 
84 
147 
124 
128 
124 
147 
90 
96 
120 
102 
84 
86 
86 
84 
134 
128 
102 
131 
84 
110 
72 
124 
132 
137 
110 
86 
81 


146 
138 
uo 
134 
172 
118 
151 
155 
155 
146 
135 
127 
178 
136 
180 
NaN 
186 
122 
132 
114 
171 
140 
187 
106 
159 
127 
191 
192 
181 
143 


69.0 
64.5 
66.0 
66.3 
68.8 
64.5 
70.0 
69.0 
70.5 
66.0 
68.0 
68.5 
73:5 
66.3 
70.0 
NaN 
75:5 
62.0 
68.0 
63.0 
72.0 
68.0 
(E 
63.0 
66.5 
62.5 
67.0 
75.5 
69.0 
66.5 


928, 
991: 
854 
904€ 
955 
833t 
1075 
924( 
856; 
878t 
865: 
852 
945( 
808( 
889( 
892 
905€ 
790€ 
955( 
831; 
935 
798€ 
106 
793 
866t 
8571 
949: 
9976 
879: 
834: 


35 
36 
37 
38 
39 


分 割 


36 Female 
37 Male 
38 Female 
39 Male 
40 Male 

^" 它 是 


133 
140 
88 
81 
89 


CSV 文 件 ， 但 是 分 割 符 是 ”;” 


129 
150 
86 
90 
91 


128 
124 
94 
74 
89 


153 
144 
139 
148 
19 


66.5 
70.5 
64.5 
74.0 
75.5 


948( 
949° 
8938 
930( 
935t 


缺失 值 CSV 中 的 第 二 个 个 体 的 weight 是 缺失 的 。 如 果 我 们 没有 指定 缺失 值 (NA 
= not available) 标记 符 , 我 们 将 无 法 进行 统计 分 析 。 


从 数组 中 创建 : pandas.DataFrame 也 可 以 视 为 1D 序 列 , 例如 数组 或 列表 的 字典 ， 如 
果 我 们 有 3 个 numpy 数组 : 


In [4]: 


import numpy as np 


t - np.linspace(-6, 6, 20) 
sin t 
cos t 


np.sin(t) 
np.cos(t) 


我 们 可 以 将 他 们 暴露 为 pandas.DataFrame: 


In [5]: 


pandas.DataFrame({'t': t, 


Out[5]: 


Sime: 


sanit, 


"cOS 


cos tj) 


cos sin t 
0 0.960170 0.279415 -6.000000 
1 0.609977 0.792419 -5.368421 
2 0.024451 0.999701 -4.736842 
3 -0.570509 0.821291 -4.105263 
4 -0.945363 0.326021 -3.473684 
5 -0.955488 -0.295030 -2.842105 
6 -0.596979 -0.802257 -2.210526 
7 -0.008151 -0.999967 -1.578947 
8 0.583822 -0.811882 -0.947368 
9 0.950551 -0.310567 -0.315789 
10 0.950551 0.310567 0.315789 
11 0.583822 0.811882 0.947368 
12 -0.008151 0.999967 1.578947 
13 -0.596979 0.802257 2.210526 
14 -0.955488 0.295030 2.842105 
15 -0.945363 -0.326021 3.473684 
16 -0.570509 -0.821291 4.105263 
17 0.024451 -0.999701 4.736842 
18 0.609977 -0.792419 5.368421 
19 0.960170 -0.279415 6.000000 


其 他 输入 : pandas 可 以 从 SQL、excel 文 件 或 者 其 他 格式 输入 数 。 见 pandas 文 档 。 


3.1.1.2.2 操作 数据 


data 是 pandas.DataFrame, 与 R 的 dataframe 类 似 : 


In [6]: 


data.shape 4 401185 


Out[6]: 


(40, 8) 


In [7]: 


data.columns # 有 列 


Out[7]: 


Index([u'Unnamed: 0', u'Gender', u'FSIQ', u'VIQ', u'PIQ', u'Weight 
u'MRI Count'], 
dtype='object' ) 


In [8]: 





print(data['Gender']) # 列 可 以 用 名 字 访 问 


9 Female 
1 Male 
2 Male 
3 Male 
4 Female 
5 Female 
6 Female 
7 Female 
8 Male 
9 Male 
10 Female 
11 Male 
12 Male 


13 Female 
14 Female 
15 Female 
16 Female 


17 Male 
18 Female 
19 Male 
20 Male 
21 Male 
22 Female 
23 Male 
24 Female 
25 Male 
26 Female 
27 Male 


28 Female 
29 Female 
30 Female 


31 Male 
32 Male 
33 Male 


34 Female 
35 Female 


36 Male 
37 Female 
38 Male 
39 Male 


Name: Gender, dtype: object 


In [9]: 


# 简单 选择 器 
data[data['Gender'] -- 'Female']['VIQ'].mean() 


Out[9]: 


109.45 


注意 : 对 于 一 个 大 dataframe 的 快速 预览 ， 用 它 的 describe 方法 : 
pandas.DataFrame.describe(). 


groupby: 根据 类 别 变量 的 值 拆 分 dataframe: 
In [10]: 
groupby gender = data.groupby('Gender') 


for gender, value in groupby gender['VIQ']: 
print((gender, value.mean())) 


('Female', 109.45) 
('Male', 115.25) 


groupby_gender 是 一 个 强力 的 对 象 ， 暴 露 了 结果 dataframes 组 的 许多 操作 : 
In [11]: 


groupby gender.mean() 


Out[11]: 
nud FSIQ VIQ  PIQ Weight Height 
Gender 
Female 19.65 111.9 109.45 110.45 137.200000 65.765000 
Male 21.35 115.0 115.25 111.60 166.444444 71.431579 


在 groupby gender 上 使 用 tab- 完 成 来 查找 更 多 。 其 他 的 常见 分 组 函数 是 median， 
count (对 于 检查 不 同 子 集 的 缺失 值 数量 很 有 用 ) 或 sum。Groupby 评 估 是 懒惰 模式 ， 
因为 在 应 用 聚合 函数 之 前 不 会 进行 什么 工作 。 


练习 

完整 人 口 VIO 的 平均 值 是 多 少 ? 

这 项 研究 中 包含 了 多 少男 性 / 女性 ? 

提示 使 用 ‘tab 完 成 ' 来 寻找 可 以 调用 的 方法 , 替换 在 上 面 例 子 中 的 'mean'。 
对 于 男性 和 女性 来 说 ， 以 log 为 单位 显示 的 MRI count 平 均值 是 多 少 ? 


150 Female Male 





vol. 
130}... 
120l- 
rio] ee 
100 L..-- 
90 


SO tex! Ir eee eeu pus 


FSIQ VIQ PIQ FSIQ VIQ PIQ 


注意 : 上 面 的 绘图 中 使 用 了 groupby_gender.boxplot ( 见 这 个 例子 )。 


3.1.1.2.3 绘制 数据 


Pandas 提 供 一 些 绘图 工具 ( pandas.tools.plotting ,后面 使 用 的 是 matplotlib) 
来 显示 在 dataframes 数 据 的 统计 值 : 


散 点 图 矩阵 : 
In [15]: 


from pandas.tools import plotting 
plotting.scatter matrix(data[['Weight', 'Height', 'MRI Count']]) 


Out[15]: 


array([[«matplotlib.axes. subplots.AxesSubplot object at 0x105c348: 
«matplotlib.axes. subplots.AxesSubplot object at 0x10a0ade: 
«matplotlib.axes. subplots.AxesSubplot object at 0x10a2d860« 
[«matplotlib.axes. subplots.AxesSubplot object at 0x10a33b2: 
«matplotlib.axes. subplots.AxesSubplot object at 0x10a3be4! 
«matplotlib.axes. subplots.AxesSubplot object at 0x10a40d9 
[«matplotlib.axes. subplots.AxesSubplot object at 0x10a49dc: 
«matplotlib.axes. subplots.AxesSubplot object at 0x10a51f8! 
«matplotlib.axes. subplots.AxesSubplot object at 0x10a5902¢ 


«| m 








/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/si! 
if self. edgecolors == str('face'): 














a4 n 


MR! Count 


In [16]: 


plotting.scatter matrix(data[['PIQ', 'VIQ', 'FSIQ']]) 


Out[16]: 


array([[«matplotlib.axes. subplots.AxesSubplot object at 0x10a918b! 
«matplotlib.axes. subplots.AxesSubplot object at 0x10aa387: 
«matplotlib.axes. subplots.AxesSubplot object at 0x10ab299: 
[«matplotlib.axes. subplots.AxesSubplot object at 0X10ab8e7: 
«matplotlib.axes. subplots.AxesSubplot object at 0x10ae207« 
«matplotlib.axes. subplots.AxesSubplot object at Oxi0abbde: 
[<matplotlib.axes. subplots.AxesSubplot object at 0x10af140( 
«matplotlib.axes. subplots.AxesSubplot object at Oxi0af89c« 
«matplotlib.axes. subplots.AxesSubplot object at Oxi0affa4: 

















两 个 总 体 

IQ 指 标 是 双 峰 的 , 似乎 有 两 个 子 总 体 。 

练习 

然后 是 只 有 女性 的 。 你 是 否认 为 2 个 子 总 体 与 性 别 


3.1.2 假设 检验 : 比较 两 个 组 

对 于 简单 的 统计 检验 ， 我 们 将 可 以 使 用 scipy 的 子 摸 块 scipy.stats: 

In [17]: 
from scipy import stats 
也 看 一 下 : Scipy 是 一 个 很 大 的 库 。 关 于 整个 库 的 快速 预览 ， 可 以 看 一 下 scipy 
= Po 

3.1.2.1 Student's tj$35: 最 简单 的 统计 检验 

3.1.2.1.1 单 样本 t- 检 验 : 检验 总 体 平 均 数 的 值 

scipy.stats ttest_1samp() 检 验 数据 总 体 的 平均 数 是 否 可 能 等 于 给 定 值 (严格 来 说 是 


否 观 察 值 来 自 于 给 定 总 体 平 均 数 的 正 态 分 布 )。 它 返回 一 个 T 统 计 值 以 及 p- 值 (LER 
数 的 帮助 ): 


In [18]: 


stats.ttest 1samp(data['VIQ'], 0) 


Out[18]: 


(30.088099970849328, 1.3289196468728067e-28) 


根据 $10^-28$ 的 p- 值 ， 我 们 可 以 声称 IQ(VIQ 的 测量 值 ) 总 体 平 均 数 不 是 0。 





3.1.2.1.2 MHA t- 检 验 : 检验 不 同 总 体 的 差异 


我 们 已 经 看 到 男性 和 女性 总 体 VIQ 平 均 数 是 不 同 的 。 要 检验 这 个 差异 是 否 
的 ， 我 们 可 以 用 scipy.stats .ttest_ind() 进 行 双 样 本 检验 : 


In [19]: 
female viq = data[data['Gender'] == 'Female']['VIQ'] 
male viq = data[data['Gender'] == 'Male']['VIQ'] 


stats.ttest ind(female viq, male viq) 
Out[19]: 


(-0.77261617232750113, 0.44452876778583217) 


3.1.2.2 配对 实验 : 同一 个 体 的 重复 测量 


PIQ、VIQ 和 FSIQ 给 出 了 IQ 的 3 种 测量 值 。 让 我 检验 一 下 FISQ 和 PIQ 是 否 有 显著 差 
异 。 我 们 可 以 使 用 双 样 本 检验 : 


In [20]: 


stats.ttest ind(data['FSIQ'], data['PIQ']) 


Out[20]: 


(0.46563759638096403, 0.64277250094148408) 


使 用 这 种 方法 的 问题 是 忘记 了 两 个 观察 之 间 有 联系 : FSIQ 和 PIQ 是 在 相同 的 个 体 
上 进行 的 测量 。 因 此 被 试 之 间 的 差异 是 混淆 的 ， 并 且 可 以 使 用 "配对 实验 "或 "重复 测 
量 实验 "来 消除 。 


In [21]: 


stats.ttest rel(data['FSIQ'], data['PIQ']) 


Out[21]: 


(1.7842019405859857, 0.082172638183642358) 





FSIQ PIQ 


这 等 价 于 单 样 本 的 差异 检验 : 
In [22]: 


stats.ttest 1samp(data['FSIQ'] - data['PIQ'], 0) 


Out[22]: 


(1.7842019405859857, 0.082172638183642358) 


-15 
FSIQ - PIQ 


T-tests 假 定 高 斯 误差 。 我 们 可 以 使 用 威 尔 科 克 森 符号 秩 检 验 , 放松 了 这 个 假设 : 
In [23]: 


stats.wilcoxon(data['FSIQ'], data['PIQ']) 
Out[23]: 


(274.5, 0.10659492713506856) 


注意 : 非 配对 实验 对 应 的 非 参 数 检验 是 曼 惠 特 尼 U 检 验 ， 
scipy.stats.mannwhitneyu()。 


练习 
e 检验 男性 和 女性 重量 的 差异 。 


e 使 用 非 参 数 检 验 来 检验 男性 和 女性 VIQ 的 差异 。 
结论 : 我 们 发 现 数据 并 不 支持 男性 和 女性 VIQ 不 同 的 假设 。 

3.1.3 线性 模型 、 多 因素 和 因素 分 析 
3.1.3.1 用 “公式 ”来 在 Python 中 指定 统计 模型 


3.1.3.1.1 简单 线性 回 为 


给 定 两 组 观察 值 ，X 和 y, 我 们 想 要 检验 假设 y 是 x 的 线性 函数 ， 换 句 话 说 : 


$y = x * coef + intercept + e$ 


其 中 $e$ 是 观察 噪音 。 我 们 将 使 用 statmodels module: 


e 拟 合 一 个 线性 模型 。 我 们 将 使 用 简单 的 策略 ， 普 通 最 小 二 乘 (OLS). 
。 检验 系数 是 否 是 非 0。 





首先 ， 我 们 生成 模型 的 虚拟 数据 : 
In [9]: 
import numpy as np 
X = np.linspace(-5, 5, 20) 
np.random.seed(1) 
# normal distributed noise 
y = -5 + 3*x + 4 * np.random.normal(size-x.shape) 


# Create a data frame containing all the relevant variables 
data = pandas.DataFrame({'x': x, 'y': y}) 


Python 中 的 统计 公式 

见 statsmodels 文 档 
然后 我 们 指定 一 个 OLS 模 型 并 且 拟 合 它 
In [10]: 


from statsmodels.formula.api import ols 
model = ols("y - x", data).fit() 


我 们 可 以 检查 傣 产 生 的 各 种 统计 量 : 
In [26]: 


print(model.summary()) 


OLS Regression Results 


Dep. Variable: y  R-squared: 
Model: OLS Adj. R-squared: 
Method: Least Squares F-statistic: 
Date: Wed, 18 Nov 2015 Prob (F-statistic): 
Time: 17:10:03 Log-Likelihood: 
No. Observations: 20 AIC: 
Df Residuals: 18 BIC: 
Df Model: 1 
Covariance Type: nonrobust 
coef std err t P>|t | [95.0% 
Intercept -5.5335 1.036 -5.342 0.000 = Tf 5 7/4 
X 2.9369 0.341 8.604 0.000 2.2: 
Omnibus: 0.100 Durbin-Watson: 
Prob(Omnibus): 0.951 Jarque-Bera (JB): 
Skew: -0.058 Prob( JB): 
Kurtosis: 2.390 | Cond. No. 
Warnings: 


[1] Standard Errors assume that the covariance matrix of the error: 


wi 一 -一 
术语 : 


Statsmodels 使 用 统计 术语 : statsmodel 的 y 变 量 被 称 为 ‘endogenous’ 而 x 变量 被 
称 为 exogenous。 更 详细 的 讨论 见 这 里 。 


为 了 简化 ，y (endogenous) 是 你 要 尝试 预测 的 值 ， 而 x (exogenous) 代表 用 来 
进行 这 个 预测 的 特征 。 


练习 
从 以 上 模型 中 取 回 估计 参数 。 提 示 : 使 用 tab- 完 成 来 找到 相关 的 属性 。 





3.1.3.1.2 类 别 变量 : 比较 组 或 多 个 类 别 
让 我 们 回 到 大 脑 大 小 的 数据 : 
In [27]: 


data = pandas.read csv('examples/brain size.csv', sep-';', na valut 








«| z = 本 
我 们 可 以 写 一 个 比较 ， 用 线性 模型 比较 男女 |Q: 
In [28]: 


model = ols("VIQ - Gender + 1", data).fit() 
print(model.summary()) 


OLS Regression Results 


Dep. Variable: VIQ R-squared: 
Model: OLS Adj. R-squared: 
Method: Least Squares F-statistic: 
Date: Wed, 18 Nov 2015 Prob (F-statistic): 
Time: 17:34:10 Log-Likelihood: 
No. Observations: 40 AIC: 
Df Residuals: 38 BIC: 
Df Model: 1 
Covariance Type: nonrobust 
coef std err t P»|t | [9: 
Intercept 109.4500 5.308 20.619 0.000 ( 
Gender [T.Male] 5.8000 72507 0.773 0.445 
Omnibus: 26.188 Durbin-Watson: 
Prob(Omnibus): 0.000 Jarque-Bera (JB): 
Skew: 0.010 Prob( JB): 
Kurtosis: 1.510 Cond. No. 
Warnings: 


[1] Standard Errors assume that the covariance matrix of the error: 
AE 
特定 模型 的 提示 


强制 类 别 : ‘Gender 被 自动 识别 为 类 别 变 量 ， 因 此 ， 它 的 每 一 个 不 同 值 都 被 处 理 为 
不 同 的 实体 。 使 用 : 





In [29]: 


model - ols('VIQ - C(Gender)', data).fit() 


可 以 将 一 个 整数 列强 制作 为 类 别处 理 。 

AHE: 我 们 可 以 在 公式 中 用 -1 删除 截 距 ， 或 者 用 +1 强 制 使 用 截 距 。 

默认 ，statsmodel 和 将 带 有 K 和 可 能 值 的 类 别 变量 义理 为 K-1' 虚 拟 变量 ' (最 后 一 个 水 平 
被 吸收 到 截 距 项 中 )。 在 绝 大 多 数 情 况 下 ， 这 都 是 很 好 的 默认 选择 - 但 是 ， 为 类 别 变 


量 指定 不 同 的 编码 方式 也 是 可 以 的 
(http://statsmodels.sourceforge.net/devel/contrasts.html)。。) 


FSIQ 和 PIQ 差 异 的 t- 检 验 


要 比较 不 同类 型 的 IQ， 我 们 需要 创建 一 个 "长 形式 "的 表格 ， 用 一 个 类 别 变量 来 标识 
IQ 类 型 : 


In [30]: 


data fisq = pandas.DataFrame({'iq': data['FSIQ'], 'type': 'fsiq'}) 
data piq = pandas.DataFrame({'iq': data['PIQ'], 'type': 'piq'J) 
data long - pandas.concat((data fisq, data piq)) 

print(data long) 


22 135 fsiq 
23 139 fsiq 
24 91 fsiq 
2b 4141 fsiq 
26 85 fsiq 
27 103 fsiq 
28 77 fsiq 
29 130 fsiq 
10 124 piq 
11 128 piq 
12 124 piq 
13 147 piq 
14 90 piq 
15 96 piq 
16 120 piq 
17 102 piq 
18 84 piq 
19 86 piq 
20 86 piq 
21 84 piq 
22 134 piq 
23 128 piq 
24 102 piq 
25 0 31 piq 
26 84 piq 
27 110 piq 
28 72 piq 
29 124 piq 
30 132 piq 
SHL ST piq 
32 110 piq 
33 86 piq 
34 81 piq 
35 128 piq 
36 124 piq 
37 94 piq 
38 74 piq 
39 89 piq 


[80 rows x 2 columns] 
[31]: 


model = ols("iq ~ type", data_long).fit() 
print(model.summary()) 


OLS Regression Results 


Dep. Variable: iq R-squared: 
Model: OLS Adj. R-squared: 
Method: Least Squares F-statistic: 
Date: Wed, 18 Nov 2015 Prob (F-statistic): 
Time: 18:16:40 Log-Likelihood: 
No. Observations: 80 AIC: 
Df Residuals: 78 BIC : 
Df Model: 1 
Covariance Type: nonrobust 
coef std err t P»|t| [95.09 
Intercept 113.4500 3.683 30.807 0.000 106.: 
type[T.piq] -2.4250 5.208 -0.466 0.643 -12.; 
Omnibus: 164.598 Durbin-Watson: 
Prob(Omnibus): 0.000 Jarque-Bera (JB): 
Skew: -0.110  Prob(JB): 
Kurtosis: 1.461 Cond. No. 
Warnings: 


[1] Standard Errors assume that the covariance matrix of the error: 
[aque eS 
我 们 可 以 看 到 我 们 获得 了 和 与 前 面 t+- 检验 相同 的 值 ， 以 及 相同 的 对 应 iq type 的 p- 值 : 
In [32]: 





stats.ttest ind(data['FSIQ'], data['PIQ']) 


Out[32]: 


(0.46563759638096403, 0.64277250094148408) 


3.1.3.2 27E: 包含 多 因素 
考虑 用 2 个 变量 x 和 y 来 解释 变量 z 的 线性 模型 : 
$z=x\,c 1+y\,c 2+it+e$ 


这 个 模型 可 以 被 视 为 在 3D 世 界 中 用 一 个 平面 去 拟 合 (x, y, z) 的 点 云 。 





实例 : 车 尾 花 数据 (examples/iris.csv) 


苗 片 和 花 斩 的 大 小 似乎 是 相关 的 : 越 大 的 花 越 大 ! 但 是 ， 在 不 同 的 种 之 间 是 否 有 额外 
的 系统 效应 ? 
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blue: setosa, green: versicolor, red: virginica 
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In [33]: 


data = pandas.read_csv('examples/iris.csv') 


model = ols('sepal_width ~ name + petal_length', data).fit() 


print(model.summary()) 
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OLS Regression Results 


Dep. Variable: 
Model: 

Method: 

Date: 

Time: 

No. Observations: 
Df Residuals: 

Df Model: 
Covariance Type: 


sepal width 


R-squared: 

Adj. R-squared: 
F-statistic: 

Prob (F-statistic): 
Log-Likelihood: 
AIC: 

BIC: 


Intercept 
name[T.versicolor] 
name[T.virginica] 
petal length 


t P»|t | 
29.989 0.000 
-8.190 0.000 
-6.502 0.000 

4.920 0.000 


Omnibus: 
Prob(Omnibus): 
Skew: 
Kurtosis: 


OLS 
Least Squares 
Thu, 19 Nov 2015 
09:56:04 
150 
146 
3 

nonrobust 

coef std 
2.9813 0. 
-1.4821 0. 
-1.6635 0. 
0.2983 0. 
2.868 

0.238 

-0.082 

3.659 


Durbin-Watson: 
Jarque-Bera (JB): 
Prob(JB): 

Cond. No. 


Warnings: 
[1] Standard Errors assume that the covariance matrix of the error: 





3.1.3.3 事后 假设 检验 : 方差 分 析 (ANOVA)) 


在 上 面 的 车 尾 花 例子 中 ， 在 排除 了 萝 片 的 影响 之 后 ， 我 们 想 要 检验 
virginicah 16 3l c E ze 8 4 z5 e 
versicolor 和 virginica 系 数 的 差异 (方差 分 析 , ANOVA). 


令 versicolor 和 


异 。 这 可 以 被 公式 化 为 检验 在 上 面 的 线性 模型 中 


sli 


来 估计 : 我 们 想 要 用 F- 检 验 检 验 " name[T.versicolor] - name[T.virginica] ": 


In [36]: 


print(model.f test([0O, 1, 


«F test: 


-1, 0])) 


F=array([[ 3.24533535]]), p=0.073690587817, df denom-146, 





高 度 和 重量 的 影响 后 ， 检 验 男 


3.1.4 更 多 可 视 化 : 用 seaborn 来 进行 统计 学 探索 


Seaborn 集成 了 简单 的 统计 学 拟 合 与 pandas dataframes 绘 图 。 


让 我 们 考虑 一 个 500 个 个 体 的 工资 及 其 它 个 人 信息 的 数据 (Berndt, ER. The Practice 
of Econometrics. 1991. NY: Addison-Wesley)。 


加 载 并 绘制 工资 数据 的 完整 代码 可 以 在 对 应 的 例子 中 找到 。 


In [3]: 


print data 


Qo co-1o0o00143»05n9nmPD Oo 


EDUCATION SOUTH 


DOD ODS 


OOOOPOPOOOODOPOPPPOOOODOOPOOODOOO 


SEX EXPERIENCE UNION 


al 


OPAPOOOOOOOPOOOOOOOCOOOOOCOOOOOOPFP 


Pompmnbn- 


21 
42 


QOooro: 


OOOOOOOOPPOOPOOOPOPPOOOOPOOOOO 


19r 


H H 
N oo 


N N 
4 0) O (oO O1 (O 3» C) - O1 CO CQ) IN) ON 


m 
oon 


AGE 
35 
57 
19 
22 
35 
28 
43 
27 
33 
27 
35 
37 
41 
45 
44 
55 
57 
44 
33 
51 
34 
55 
27 
31 
41 
57 
26 
46 
26 
26 
33 
32 
39 
31 
36 


RACE O( 
2 


CQ) C000 00 00 00 I 00 I 00 00 00 00 C0 C0 00 C0 00 00 00 00 00 00 00 0 00 C0 om CO 


C CO 200 C2 - 


509 16 


510 17 
511 16 
512 18 
513 12 
514 16 
515 14 
516 16 
517 12 
518 14 
519 16 
520 17 
521 16 
522 16 
523 17 
524 9 
525 15 
526 15 
527 12 
528 16 
529 18 
530 12 
531 17 
532 12 
533 16 


SECTOR MARR 


0 工 

1 1 1 
2 1 0 
3 0 0 
4 0 工 
5 0 0 
6 0 0 
7 0 0 
8 al 1 
9 0 0 
10 0 工 
11 1 0 
12 0 1 
13 0 0 
14 0 1 
15 2 1 
16 0 1 
17 1 1 
18 0 0 
19 0 工 
20 T 1 
21 1 1 
22 0 0 
23 0 工 
24 0 1 
25 1 1 


OPOOOOPOOPPOOOPOPOOOODOOO© 


OOrRPrRPORPOGQOOQORFPRFOQOOQOOQOORRFPFOFRFPOQOOOQOORF 


OPPOOPOOOPOPOPOOOOOOPPOOP 


N 
NOAN NN OO ON 


BH 
O N 


.89 
.50 
.65 
. 00 
.00 
.67 
.38 
15. 
. 45 
.25 
129 
37 
.50 
.50 
.00 
TS 
.67 
.50 
.00 
.79 
.36 
.10 
.25 
.88 
. 38 


56 


44 
37 
33 
47 
57 
37 
35 
32 
43 
32 
29 
30 
39 
32 
25 
49 
32 
31 
30 
28 
29 
51 
48 
31 
55 


WWRFRRFEWWWWWRWWWWNWWWNHWWWW W W 


26 1 1 
27 0 1 
28 1 1 
29 0 al 
504 0 0 
505 0 0 
506 0 工 
507 0 工 
508 0 al 
509 0 1 
510 0 工 
511 0 1 
512 0 1 
513 0 工 
514 0 工 
515 0 0 
516 0 0 
517 0 0 
518 0 1 
519 0 工 
520 0 1 
521 1 1 
522 0 aL 
523 0 1 
524 0 工 
525 0 1 
526 0 0 
527 0 1 
528 0 0 
529 0 0 
530 0 工 
531 0 1 
532 0 工 
533 工 工 


[534 rows x 11 columns] 
BE 
3.1.4.1 配对 图 : 散 点 矩阵 
使 用 seaborn.pairplot() 来 显示 散 点 和 矩阵 我 们 可 以 很 轻松 的 对 连续 变量 之 间 的 交互 有 


一 个 直觉 : 





In [4]: 


import seaborn 
seaborn.pairplot(data, vars=['WAGE', 'AGE', 'EDUCATION'], kind='re¢ 


E m | —1& | 
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Out[4]: 


«seaborn.axisgrid.PairGrid at 0x107feb850> 


/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/si! 
if self. edgecolors == str('face'): 





EDUCATION 





EDUCATION 


Hn 


可 以 用 颜色 来 绘制 类 别 变 
In [5]: 

seaborn.pairplot(data, vars-['WAGE', 'AGE', 'EDUCATION'], kind='re¢ 
四 二 = 
Out[5]: 





«seaborn.axisgrid.PairGrid at 0x107feb650> 
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AGE 


886 8 8-38 





S 5 BG 


EDUCATION 
a 





^ ee 
. 
M ^ s. 
BH e. ome 
e 
INE i. dili 
0 ———Bm 
-10 0 0 20 30 40 50 10 20 30 40 50 6 70 0 5 10 15 20 
WAGE AGE EDUCATION 


看 一 下 并 感受 一 些 matplotlib 设 置 


Seaborn 改 变 了 matplotlib 的 默认 图 案 以 便 获 得 更 "现代 "、 更 "类 似 Excel" 的 外 观 。 它 
是 通过 import 来 实现 的 。 重 置 默认 设置 可 以 使 用 : 


In [8]: 


from matplotlib import pyplot as plt 
plt.rcdefaults() 


要 切换 回 seaborn 设 置 , 或 者 更 好 理解 seaborn 中 的 样式 , 见 seaborn 文 档 中 的 相关 部 
cae 


3.1.4.2. Implot: 44-74 Xe 3r Sos 


回 为 捕捉 了 一 个 变量 与 另 一 个 变量 的 关系 ， 例 如 薪水 和 教育 ， 可 以 
用 seaborn.Implot() 来 绘制 : 


In [6]: 
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seaborn.lmplot(y-'WAGE', x-'EDUCATION', data-data) 


Out[6]: 


«seaborn.axisgrid.FacetGrid at 0x108db6050> 





EDUCATION 


稳健 回 为 

在 上 图 中 ， 有 一 些 数 据点 偏离 了 右 侧 的 主要 云 ， 他 们 可 能 是 异常 值 ， 对 总 体 没有 代 
X, (Be, Hea sels. 

要 计算 对 异常 值 不 敏感 的 回归， 必须 使 用 稳健 模型 。 在 seaborn 的 绘图 画 数 中 可 以 
使 用 robust=True ， 或 者 在 statsmodels 用 "稳健 线性 回 

ja" statsmodels.formula.api.rlm() 来 替换 OLS。 


3.1.5 交互 作用 检验 


2.0 


wo 

e gender 

$ e female 
e male 





0.0 * 


0 5 10 15 20 
education 


是 否 教育 对 工资 的 提升 在 男性 中 比 女性 中 更 多 ? 
上 图 来 自 两 个 不 同 的 拟 合 。 我 们 需要 公式 化 一 个 简单 的 模型 来 检验 总 体 倾 斜 的 差 


c 


Tto 这 通过 "交互 作用 "来 完成 。 

In [22]: 

result = ols(formula-'WAGE ~ EDUCATION + C(SEX) + EDUCATION * C(SE 
print(result.summary()) 


E ES 





OLS Regression Results 


R-squared: 

Adj. R-squared: 
F-statistic: 

Prob (F-statistic): 
Log-Likelihood: 


AIC: 

BIC: 

err t P>|t| 
314 0.841 0.401 
085 -2.096 0.037 
099 6.918 0.000 
157 1.098 0.273 


Durbin-Watson: 
Jarque-Bera (JB): 
Prob( JB): 

Cond. No. 


Dep. Variable: WAGE 
Model: OLS 
Method: Least Squares 
Date: Thu, 19 Nov 2015 
Time: 12:06:38 
No. Observations: 534 
Df Residuals: 530 
Df Model: 3 
Covariance Type: nonrobust 
coef std 

Intercept 1.1046 
C(SEX)[T.1] -4.3704 
EDUCATION 0.6831 
EDUCATION:C(SEX) [T.1] 0.1725 
Omnibus: 208.151 
Prob(Omnibus): 0.000 
Skew: 1.587 
Kurtosis: 9.883 
Warnings: 


[1] Standard Errors assume that the covariance matrix of the error: 





我 们 可 以 得 出 结论 教育 对 男性 的 益处 大 于 女性 吗 ? 


带 回 家 的 信息 
F, 

3.1.6 完整 例子 
3.1.6.1 例子 


3.1.6.1.1 代码 例子 


3.1.6.1.2 课程 练习 的 


假设 检验 和 p- 值 告诉 你 影响 / 差异 的 显著 性 
公式 ( 带 有 类 别 变量 ) 让 你 可 以 表达 你 数据 中 的 丰富 联系 
可 视 化 数据 和 简单 模型 拟 合 很 重要 ! 
条 件 化 (添加 可 以 解释 所 有 或 部 分 方差 的 因素 ) 在 改变 交互 作用 建 模 方面 非常 重 


wk 
答案 


[=| 


3.2 Sympy : Python 中 的 符号 数学 


作者 : Fabian Pedregosa 
目的 


e. 从 任意 的 精度 评估 表达 式 。 

e 在 符号 表达 式 上 进行 代数 运算 。 

e 用 符号 表达 式 进行 基本 的 微 积分 任务 (极限 、 微 分 法 和 积分 法 )。 
。 求解 多 项 式 和 超越 方程 。 

。 求解 一 些微 分 方程 。 


为 什么 是 SymPy? SymPy 是 符号 数学 的 Python 库 。 它 的 目的 是 成 为 Mathematica 或 
Maple 等 系统 的 奉 代 品 ， 同 时 让 代码 尽 可 能 简单 并 且 可 扩展 。SymPy 完 全 是 用 
Python 写 的 ， 并 不 需要 外 部 的 库 。 


Sympy 文 档 及 库 安装 见 http://www.sympy.org/ 
章节 内 容 


e SymPy 第 一 步 
o 使 用 SymPy 作 为 计算 器 
o 练习 
o 符号 
e 代数 运算 
o 展开 
o 化 简 
e WED 
o 极限 
o 微分 法 
o 序列 扩展 
o 积分 法 
o 练习 
方程 求解 
o 练习 
线性 代数 
o 矩阵 
o 微分 方程 


3.2.1 SymPy 第 一 步 


3.2.1.1 使 用 SymPy 作 为 计算 器 
SymPy 定 义 了 三 种 数字 类 型 : 实数 、 有 理 数 和 整数 。 


有 有理数 类 将 有 理 数 表征 为 两 个 整数 对 : 分 子 和 分 母 ， 因 此 Rational(1,2) 代 表 1/2， 
Rational(5,2) 代 表 5/2 等 等 : 
In [2]: 


from sympy import * 
a = Rational(1,2) 


In [2]: 
a 


Out[2]: 


1/2 


Out[3]: 


1 


SymPy 在 底层 使 用 mpmath, 这 使 它 可 以 用 任意 精度 的 算术 进行 计算 。 这 样 ， 一 些 特 
殊 的 常数 ， 上 比如 e, pi, oo (FAR), 可 以 被 作为 符号 处 理 并 且 可 以 以 任意 精度 来 评估 : 
In [4]: 

pi* ui) 
Out[4]: 

pi* p) 
In [5]: 


pi.evalf() 


Out[5]: 


3.14159265358979 


In [6]: 

(pi + exp(1)).evalf() 
Out[6]: 

5.85987448204884 
如 你 所 见 ， 将 表达 式 评估 为 浮 点 数 。 


也 有 一 个 类 代表 数学 的 无 限 , 称 为 oo: 
In [7]: 


00 > 99999 
Out[7]: 

True 
In [8]: 

oo + 1 


Out[8]: 


OO 


3.2.1.2 练习 


e. 计算 $\sqrt{2}$ 小 数 点 后 一 百 位 。 
e 用 有 理 数 算术 计算 1/2 + 1/3 in rational arithmetic. 


3.2.1.3 符号 


与 其 他 计算 机 代数 系统 不 同 ， 在 SymPy 你 需要 显 性 声明 符号 变量 : 
In [4]: 


from sympy import * 
x - Symbol('x') 
y - Symbol('y') 


然后 你 可 以 计算 他 们 : 
In [10]: 
x+y+x-y 
Out[10]: 
arx 
In [11]: 
(x + y)**2 
Out[11]: 
(S2 
符号 可 以 使 用 一 些 Python 操 作 符 操作 : +, -, , * (算术 ), & |, ~, >>, << (布尔 逻辑 ). 


打印 这 里 我 们 使 用 下 列 设置 打印 
In [ ]: 


sympy.init printing(use unicode-False, wrap. line-True) 


3.2.2 代数 运算 
SymPy 可 以 进行 强大 的 代数 运算 。 我 们 将 看 一 下 最 常 使 用 的 : 展开 和 化 简 。 
3.2.2.1 展开 


使 用 这 个 模块 展开 代数 表达 式 。 它 将 试 着 密集 的 乘 方 和 相 乘 : 
In [13]: 


expand((x + y)**3) 


Out[13]: 


NAAR + S35 X32 十 QUNM 4 VT 


In [14]: 


aix 2 十 Saya 2 十 Xe 十 Verne 


Out[14]: 


x**3 4 hoe SRY, 4 OIX UA 十 Vy 


可 以 通过 关键 词 的 形式 使 用 更 多 的 选项 : 
In [15]: 


expand(x + y, complex-True) 


Out[15]: 


re(x) + re(y) + I*im(x) + I*im(y) 


In [16]: 


I*im(x) + I*im(y) + re(x) + re(y) 


Out[16]: 


rex) + re(y) + I*im(x) + I*im(y) 


In [17]: 


expand(cos(x * y), trig-True) 


Out[17]: 


-sin(x)*sin(y) * cos(x)*cos(y) 


In [18]: 


cos(x)*cos(y) - sin(x)*sin(y) 


Out[18]: 


-sin(x)*sin(y) * cos(x)*cos(y) 


3.2.2.2 化 简 


如 果 可 以 将 表达 式 转 化 为 更 简单 的 形式 ， 可 以 使 用 化 简 : 
In [19]: 


simplify((x * x*y) / x) 
Out[19]: 
y*1 


化 简 是 一 个 模糊 的 术语 ， 更 准确 的 词 应 该 是 : powsimp (指数 化 简 )、 trigsimp (=A 
表达 式 )、logcombine、radsimp 一 起 。 


练习 

e. 计算 $(x+y)^6$ 的 展开 。 

e 化 简 三 角 表 达 式 $ \sin(x) / \cos(x)$ 
3.2.3 微 积 分 


3.2.3.1 极限 


在 SymPy 中 使 用 极限 很 简单 ， 人 允许 语法 limit(function, variable, point), 因此 要 计算 
f(x) 类 似 $x \rightarrow 0$, 你 应 该 使 用 limit(f, x, 0): 


In [5]: 


limit(sin(x)/x, x, 0) 


Out[5]: 


工 


你 也 可 以 计算 一 下 在 无 限时 候 的 极限 : 
In [6]: 


limit(x, x, 00) 


Out[6]: 


OO 


In [7]: 


limit(1/x, x, oo) 


Out[7]: 


0 


In [8]: 


Timdt(x6 x 300) 


Out[8]: 
1 
3.2.3.2 微分 法 


你 可 以 使 用 diff(func, var) 微分 任何 SymPy 表 达 式 。 例 如 : 
In [9]: 


diff(sin(x), x) 


Out[9]: 


cos(x) 


In [10]: 
diff (sin(2*x), x) 
Out[10]: 
2*cos(2*x) 
In [11] 
diff (tan(x), x) 
Out[11] 
tan(x)**2 + 1 
你 可 以 用 下 列 方法 检查 是 否 正 确 : 
In [12]: 
limit((tan(xty) - tan(x))/y, y, 0) 
Out[12]: 
Lato) = 2 tea 
可 以 用 diff(func, var, n) 方法 来 计算 更 高 的 导数 : 
In [13]: 
din (SINCA) x eds) 
Out[13]: 


2*cos(2*x) 


In [14]: 
diff(sin(2*x), x, 2) 
Out[14]: 
-4*sin(2*x) 
In [15]: 
diff(sin(2*x), x, 3) 
Out[15]: 


-8*cos(2*x) 


3.2.3.3 序列 展开 
SymPy 也 知道 如 何 计 算 一 个 表达 式 在 一 个 点 的 Taylor 序 列 。 使 


用 series(expr, var) : 
In [16]: 
series(cos(x), Xx) 
Out[16]: 
1 - x**2/2 + x**4/24 + O(x**6) 
In [17]: 
series(1/cos(x), x) 
Out[17]: 


1 + x**2/2 + 5*x**4/24 + O(x**6) 


练习 


计算 $\lim_{x\rightarrow 0} \sin(x)/x$ 
计算 log(x) 对 于 x 的 导数 。 


3.2.3.4 积分 法 
SymPy 支 持 超 验 基础 和 特殊 函数 的 无 限 和 有 限 积分 ， 通 过 integrate() 功能 , 使 


用 了 强大 的 扩展 的 Risch-Norman 算 法 和 詹 发 式 和 模式 匹配 。 你 可 以 积分 基本 函数 : 
In [18]: 
integrate(6*x**5, x) 
Out[18]: 
$05 
In [19]: 
integrate(sin(x), x) 
Out[19]: 
-cos(x) 
In [20]: 
integrate(log(x), x) 
Out[20]: 
x*log(x) - x 
In [21]: 


integrate(2*x + sinh(x), x) 


Out[21]: 


x**2 + cosh(x) 


th BY EAR fj 22 BY A TEU aR EN: 
In [22]: 


integrate(exp(-x**2)*erf(x), x) 
Out[22]: 


sqrt(pi)*erf(x)**2/4 


也 可 以 计算 一 下 有 限 积分 : 
In [23]: 


integrate(x**3, (x, -1, 1)) 


Out[23]: 


0 


In [24]: 


integrate(sin(x), (x, 0, pi/2)) 


Out[24]: 


工 


In [25]: 


integrate(cos(x), (x, -pi/2, pi/2)) 


Out[25]: 


2 


不 标准 积分 也 支持 : 
In [26]: 


integrate(exp(-x), (x, 0, oo)) 
Out[26]: 

1 
In [27]: 

integrate(exp(-x**2), (x, -oo, oo)) 
Out[27]: 


sqrt(pi) 


3.2.3.5 练习 


3.2.4 方程 求解 
SymPy 可 以 求解 线性 代数 方程 ， 一 个 或 多 个 变量 : 
In [28]: 


solve(x**4 - 1, x) 


Out[28]: 


如 你 所 见 ， 第 一 个 参数 是 假设 等 于 0 的 表达 式 。 它 可 以 解 一 个 很 大 的 多 项 式 方程 ， 
也 可 以 有 能 力求 解 多 个 方程 ， 可 以 将 各 自 的 多 个 变量 作为 元 组 以 第 二 个 参数 给 出 : 


In [29]: 


solve([x + 5*y - 2, -3*x + 6*y - 15], [x, y]) 


Out[29]: 


De ae wu 


也 直接 求解 超越 方程 (有限 的 ) : 
In [30]: 


solve(exp(x) + 1, x) 
Out[30]: 
[I*pi] 
多 项 式 方程 的 另 一 个 应 用 是 factor 。 factor 将 多 项 式 因 式 分 解 为 可 化 简 的 
项 ， 并 且 可 以 计算 不 同 域 的 因 式 : 
In [31]: 


ee Ae eee 
factor(f) 


Out[31]: 

(X20 xTM aX I 
In [32]: 

factor(f, modulus-5) 


Out[32]: 


(x - 2)**2*(x + 2)**2 


SymPy 也 可 以 解 布尔 方程 ， 即 ， 判 断 一 个 布尔 表达 式 是 否 满足 。 对 于 这 个 情况 ， 我 
们 可 以 使 用 satisfiable WA: 


In [33]: 


satisfiable(x & y) 


Out[33]: 


(x: True, y: True} 


这 告诉 我 们 (x & y) 是 真 ， 当 x 和 y 都 是 True 的 时 候 。 如 果 一 个 表达 式 不 是 True， 
即 它 的 任何 参数 值 都 无 法 使 表达 式 为 真 ， 那 么 它 将 返回 False: 


In [34]: 


satisfiable(x & -x) 


Out[34]: 


False 


3.2.4.1 练习 


e 求解 系统 方程 $x + y = 2$, $2\cdot x + y = 0$ 
e 是 否 存 在 布尔 值 ， 使 $(~x | y) & (~y | x)$ 为 真 ? 


3.2.5 线性 代数 
3.2.5.1 矩阵 


和 矩阵 通过 Matrix 类 的 一 个 实例 来 创建 : 
In [35]: 


from sympy import Matrix 
Matrix([[1,0], [0,1]]) 


Out[35]: 
Matrix([ 


[1, 9], 
[0, 1]]) 


与 NumPy 数 组 不 同 ， 你 也 可 以 在 里 面 放 人 符号 : 
In [36]: 


Symbol('x') 
Symbol('y') 
Matrix([[1,x], [y,1]]) 


D> DPx x 


Out[36]: 


Matrix([ 
[1, x], 
[y; 1]]) 


In [37]: 
A**2 
Out[37]: 


Matrix([ 
[x*y + 1, 2*x], 
[ 2*y, x*y + 1]]) 


3.2.5.2 微分 方程 


SymPy 可 以 解 (一 些 ) 常规 微分 。 要 求解 一 个 微分 方程 ， 使 用 dsolve 。 首 先 ， 通 
过 传递 cls=Function 来 创建 一 个 未 定义 的 符号 函数 : 


In [38]: 
f, g = symbols('f g', cls-Function) 
f 和 9 是 未 定义 函数 。 我 们 可 以 调用 f(x), 并 且 它 可 以 代表 未 知 的 函数 : 
In [39]: 
f(x) 
Out[39]: 


f(x) 


In [40]: 


f(x).diff(x, x) + f(x) 


Out[40]: 


f(x) * Derivative(f(x), x, x) 


In [41]: 


dsolve(f(x).diff(x, x) * f(x), f(x)) 


Out[41]: 


f(x) == Ci*sin(x) + C2*cos(x) 


关键 词 参数 可 以 向 这 个 范 数 传递 ， 以 便 帮 助 确 认 是 否 找到 最 适合 的 解决 系统 。 例 
如 ， 你 知道 它 是 独立 的 方程 ， 你 可 以 使 用 关键 词 hint='separable' 来 强制 dsolve 来 
将 它 作 为 独立 方程 来 求解 : 


In [42]: 

dsolve(sin(x)*cos(f(x)) * cos(x)*sin(f(x))*f(x).diff(x), f(x), hint 
aj =] a 
Out[42]: 





[f(x) == -asin(sqrt(C1i/cos(x)**2 + 1)) + pi, 
f(x) == asin(sqrt(C1/cos(x)**2 + 1)) + pi, 
f(x) == -asin(sqrt(C1/cos(x)**2 + 1)), 


f(x) == asin(sqrt(C1/cos(x)**2 + 1))] 


练习 
e 求解 Bernoulli 微 分 方程 
$x \frac{d f(x)}{x} + f(x) - f(x)^2-0$ 
e 使 用 hint='Bernoulli 求 解 相 同 的 公式 。 可 以 观察 到 什么 ? 


3.3 Scikit-image : A(R x IE 


作者 : Emmanuelle Gouillart 


scikit-image 是 专注 于 图 像 处理 的 Python 包 ， 并 且 使 用 原生 的 Numpy 数 组 作为 图 像 
对 象 。 本 章 描述 如 何在 不 同 图 像 处 理 任 务 上 使 用 scikit-image ， 并 且 保留 了 其 
他 科学 Python 模块 比如 Numpy 和 Scipy 的 链接 。 


也 可 以 看 一 下 : 对 于 基本 图 像 处 理 ， 比 如 图 像 剪 切 或 者 简单 过 滤 ， 大 量 简单 操作 可 
以 用 Numpy 和 SciPy 来 实现 。 看 一 下 使 用 Numpy 和 Scipy 图 像 操作 和 义理 部 分 。 


注意 ， 在 阅读 本 章 之 前 你 应 该 熟悉 前 面 章 节 的 内 容 ， 比 如 基础 操作 ， 上 比如 面具 和 标 
签 作为 先决 条 件 。 


章节 内 容 


e 介绍 和 观点 
o scikit-image 和 SciPy 生态 系统 
o scikit-image 能 发 现 什么 
e 输入 /输出 , 数据 类 型 和 颜色 空间 
o 数据 类 型 
o 颜色 空间 
e 图 像 预 人 处理/ 增强 
o 本 地 过 滤器 
o 非 - 本 地 过 滤器 
o 数学 形态 学 
e 图 像 细 分 
o 二 元 细 分 : BUR + 背景 
o 基于 标记 的 方法 
测量 区 域 的 属性 
e 数据 可 视 化 和 交互 


3.3.1 介绍 和 观点 


图 像 是 NumPy 的 数组 np .ndarray 


图 像 : np.ndarray 
像素 : array values: a[2, 3] 
渠道 : array dimensions 
图 像 编码 : dtype (np.uint8, np.uint16, np.float) 
at Rae: functions (numpy, skimage, scipy) 


In [1]: 


%matplotlib inline 

import numpy as np 

check - np.zeros((9, 9)) 

check[::2, 1::2] = 1 

check[1::2, ::2] 1 

import matplotlib.pyplot as plt 

plt.imshow(check, cmap-'gray', interpolation-'nearest') 


Out[1]: 


<matplotlib.image.AxesImage at 0x105717610> 














3.3.1.1 scikit-image 和 SciPy 生态 系统 


最 新 版 的 scikit-image 包含 在 大 多 数 的 科学 Python 发 行 版 中 ， 比 如 ，Anaconda 
或 Enthought Canopy。 它 也 包含 在 Ubuntu/Debian, 


In [6]: 


import skimage 
from skimage import data # 大 多 数 画 数 在 子 包 中 


KBB scikit-image 画 数 用 NumPy ndarrays 作 为 参数 
In [6]: 


camera = data.camera() 
camera.dtype 


Out[6]: 


dtype('uint8') 


In [7]: 


camera.shape 


Out[7]: 


(512, 512) 


In [8]: 


from skimage import restoration 
filtered camera - restoration.denoise bilateral(camera) 
type(filtered camera) 


Out[8]: 


numpy.ndarray 


其 他 Python 包 也 可 以 用 于 图 像 处 理 ， 并 且 使 用 Numpy 数 组 : 


scipy.ndimage : 对 于 nd-arrays。 基 础 过 滤 、 数 学 形态 学 和 区 域 属性 
Mahotas 同时 ， 强 大 的 图 形 处 理 库 有 Python 封 装 : 

OpenCV (计算 机 视觉 ) 

ITK (3D 图 像 和 注册 ) 

其 他 (但 是 ， 他 们 没有 那么 Pythonic 也 没有 Numpy 友 好 ， 在 一 定 范围 )。 


3.3.1.2 scikit-image 能 发 现 什么 


e 网 站 : http://scikit-image.org/ 

e. 例子 库 (就 像 在 matplotlib 或 scikit-learn): http://scikit- 
image.org/docs/stable/auto examples/ 不 同类 的 函数 ， 从 基本 的 使 用 函数 到 高 
级 最 新 算法 。 


e 过 滤器 : 函数 将 图 像 转 化 为 其 他 图 像 。 


o NumPy 组 件 

o 通用 过 滤器 算法 
e 数据 简化 函数 : 计算 图 像 直 方 图 、 局 部 极 值 位 置 、 角 。 
e 其 他 动作 : 1/0, 可 视 化 ， 等 。 
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3.3.2 输入 /输出 , 数据 类 型 和 颜色 空间 


I/O: skimage.io 


In [4]: 


from skimage import io 


读 取 文件 : skimage.io.imread() 
In [7]: 
import os 


filename = os.path.join(skimage.data dir, 'camera.png' ) 
camera - io.imread(filename) 





支持 所 有 被 Python Imaging Library (或 者 imread plugin 关键 词 提供 的 任何 
IO 插件 ) 的 数据 格式 。 也 支持 URL 图 片 路 径 : 


In [3]: 


logo = io.imread('http://scikit-image.org/ static/img/logo.png') 


存储 文件 : 
In [4]: 


3.3 Scikit-image : E f& 4 388 502 


io.imsave('local logo.png', logo) 


( imsave 也 用 外 部 插件 比如 PIL) 


3.3.2.1 数据 类 型 





图 像 ndarrays 可 以 用 整数 (有 符号 或 无 符号 ) 或 浮 点 来 代表 。 
小 心 整数 类 型 的 浴 出 
In [8]: 


camera - data.camera() 
camera.dtype 


Out[8]: 
dtype('uint8') 


In [8]: 


camera multiply - 3 * camera 


可 用 不 同 的 整 型 大 小 : 8-, 16- 或 32- 字 节 , 有 符号 或 无 符号 。 


一 个 重要 的 (如 果 有 疑问 的 话 ) skimage 惯例 : 图 像 浮 点 支持 在 [-1, 1] (与 所 以 浮 点 
图 像 相 对 ) 


In [9]: 


from skimage import img as float 
camera float - img as float(camera) 
camera.max(), camera float.max() 


Out[9]: 


(255, 1.0) 


ERG AR AERE FR SE m AES RB, Bl, ia HB XB RISE X Ee 
都 与 输入 数组 不 同 


In [9]: 
try: 


from skimage import filters 


except ImportError: 
from skimage import filter as filters 


camera sobel - filters.sobel(camera) 
camera sobel.max() 


Out[9]: 


0.5915023652179584 


在 上 面 的 例子 中 ， 我 们 使 用 scikit-image 的 子 模块 filters ， 在 0.11 到 0.10 版 
Aj, filter 被 重 命名 为 filters ， 为 了 避免 与 Python 内 置 的 filter 冲 


突 。 
在 skimage 提 供 了 下 列 skimage 实 用 的 函数 来 转化 dtype 和 data range: 
util.img as float 、  util.img as ubyte 等 。 


看 一 下 用 户 手 册 来 了 解 细节 。 
In []: 


An important (if questionable) skimage convention: float images are 





3.3.1. Introduction and concepts 


Images are NumPy's arrays np.ndarray 


3.4 Traits : 创建 交互 对 话 
In [10]: 


%matplotlib inline 
import numpy as np 


作者 : Didrik Pinte 


Traits 项 目 允 许 你 可 以 向 Python 项 目 属性 方便 的 添加 验证 、 初 始 化 、 委 托 、 通 知 和 
图 形 化 界面 。 


在 这 个 教程 中 ， 我 们 将 研究 Traits 工具 包 并 且 学 习 如 何 动态 减少 你 所 写 的 锅炉 片 代 
码 ， 进 行 快速 的 GUI 应 用 开发 ， 以 及 理解 Enthought 工 具 箱 中 其 他 部 分 的 想法 。 


Traits 和 Enthought 工 具 箱 是 基于 BSD-style 证 书 的 开源 项 目 。 


目标 受众 


Python 中 高 级 程序 员 


要 求 


wxPython、PyQt 或 PySide 之 一 

Numpy 和 Scipy 

Enthought 工 具 箱 

所 有 需要 的 软件 都 可 以 通过 安装 EPD 免 费 版 来 获得 


教程 内 容 


e 介绍 
e 例子 
e Traits 是 什么 
o 初始 化 
验证 
文档 
nb: 打开 一 个 对 话 框 


o 
o 
o 
o 推迟 
o 
o 


通知 
一 些 更 高 级 的 特征 


3.4.1 介绍 


Enthought 工 具 箱 可 以 构建 用 于 数据 分 析 、2D 绘 图 和 3D 可 视 化 的 精密 应 用 框架 。 这 
些 强力 可 重用 的 组 块 是 在 BSD-style 证 书 下 发 布 的 。 


Enthought 工 具 箱 主要 的 包 是 : 


e Traits - 基于 组 块 的 方式 构建 我 们 的 应 用 。 

e Kiva - 2D 原 生 支持 基于 路 径 的 rendering、affine 转 化 、alpha 混 合 及 其 它 
e Enable - 基于 对 象 的 2D 绘 图 画布 。 

e Chaco - 绘图 工具 箱 ， 用 于 构建 复杂 的 交互 2D 图 像 。 

e Mayavi -基于 VTK 的 3D 科 学 数据 可 视 化 

e Envisage - 应 用 插件 框架 ， 用 于 构建 脚本 化 可 扩展 的 点 用 


Mayavi 
SEIR 





Traits 





m Ca) 
—_ 
: AN 


在 这 篇 教程 中 ， 我 们 将 关注 Traits。 


3.4.2 例子 


在 整个 这 篇 教程 中 ， 我 们 将 使 用 基于 水 资 理 简 单 案 例 的 一 个 样 例 。 我 们 将 试 着 
i tas ny 


名 称 

水 库 的 最 小 和 最 大 容量 [$hmA^39] 

水 坝 的 高 度 和 宽度 [$my] 

著 水 面积 [$kmA^29] 

水 压 头 [$mg] 

涡轮 的 动力 [$MW9] 

最 小 和 最 大 放水 量 [$m^3/s9] 

涡轮 的 效率 

水 库 有 一 个 已 知 的 运转 情况 。 一 部 分 是 与 基于 放水 量 有 关 的 能 量 产生 。 估 算 水 力 发 
电机 电力 生产 的 简单 公式 是 $P = \rho hrgk$, 其 中 


e 已 以 瓦特 为 单位 的 功率 ， 
e \rho 是 水 的 密度 ($~1000 kg/m^3$), 


h 是 水 的 高 度 ， 

r 是 以 每 秒 立方 米 为 单位 的 流动 率 ， 
g 重力 加 速度 ，9.8 $m/s^2$, 

k 是 效率 系数 ， 范 围 从 0 到 1。 


年 度 的 电能 生产 取决 于 可 用 的 水 供给 。 在 一 些 设施 中 ， 水 流 率 在 一 年 中 可 能 差 10 


倍 。 
运行 状态 的 第 二 个 部 分 是 著 水 量 ， 蓄 水 量 (storage) 依 赖 于 控制 和 非 控制 参数 : 
$storage_{t+1} = storage t+inflows - release - spillage - irrigationy 


本 教程 中 使 用 的 数据 不 是 真实 的 ， 可 能 甚至 在 现实 中 没有 意义 。 


3.4.3 Traits 是 什么 


trait 是 可 以 用 于 常规 Python 对 象 属性 的 类 型 定义 ， 给 出 属性 的 一 些 额外 特性 : 


e 标准 化 : 
o 初始 化 
o 验证 
o 推迟 

e 通知 

e 可 视 化 

e 文档 


类 可 以 自由 混合 基于 trait 的 属性 与 通用 Python 属性 ， 或 者 选择 类 中 只 使 
用 固定 的 或 开放 的 trait 属 性 集 。 类 定义 的 Trait 属 性 自动 继承 自由 这 个 类 衍生 的 其 他 
T X Ro 


创建 一 个 traits 类 的 常用 方式 是 通过 扩展 HasTraits 基 础 类 ， 并 且 定 义 类 的 traits : 
In [1]: 


from traits.api import HasTraits, Str, Float 
class Reservoir(HasTraits): 


name - Str 
max storage - Float 


对 Traits 3.x 用 户 来 说 
如 果 使 用 Traits 3.x, 你 需要 调整 traits 包 的 命名 空间 : 


e traits.api 应 该 为 enthought.traits.api 
e traitsui.api 应 该 为 enthought.traits.ui.api 


像 这 样 使 用 traits 类 和 使 用 其 他 Python 类 一 禅 简 单 。 注 意 ，trait 值 通过 关键 词 参数 传 
递 : 


In [2]: 


reservoir - Reservoir(name-'Lac de Vouglans', max storage-605) 


3.4.3.1 初始 化 


所 有 的 traits 都 有 一 个 默认 值 来 初始 化 变量 。 例 如 ， 基 础 python 类 型 有 如 下 的 trait 等 
价 物 : 


Trait Python 类 型 AERE 
Bool Boolean False 
Complex Complex number 0+0j 
Float Floating point number 0.0 
Int Plain integer 0 
Long Long integer OL 
Str String $ 
Unicode Unicode u" 


存在 很 多 其 他 预定 义 的 trait 类 型 : Array, Enum, Range, Event, Dict, List, Color, Set, 
Expression, Code, Callable, Type, Tuple, etc. 


自 定义 默认 值 可 以 在 代码 中 定义 : 
In [3]: 


from traits.api import HasTraits, Str, Float 
class Reservoir(HasTraits): 


name - Str 
max storage - Float(100) 


reservoir = Reservoir(name='Lac de Vouglans') 


复杂 初始 化 


当 一 个 trait 需 要 复杂 的 初始 化 时 ， 可 以 实施 XXX 上 默认 魔法 方法 。 当 调用 XXX trait 
时 ， 它 会 被 懒惰 的 调用 。 例 如 : 


In [4]: 


def name default(self): 
""" Complex initialisation of the reservoir name. """ 


return 'Undefined' 


3.4.3.2 验证 


当 用 户 斌 图 设置 trait 的 内 容 时 ， 每 一 个 trait 都 会 被 验证 : 
In [5]: 


reservoir = Reservoir(name-'Lac de Vouglans', max storage-605) 


reservoir.max storage - '230' 


TraitError Traceback (most recent c: 
«ipython-input-5-cbed071af0b9» in «module»() 

1 reservoir - Reservoir(name-'Lac de Vouglans', max storage-605) 
2 

----> 8 reservoir.max storage = '230' 


/Library/Python/2.7/site-packages/traits/trait handlers.pyc in err« 
170 nnm 


171 raise TraitError( object, name, self.full info( object 
--» 172 value ) 173 
174 def full info ( self, object, name, value ): 


TraitError: The 'max storage' trait of a Reservoir instance must be 





3.4.3.3 文档 


从 本 质 上 说 ， 所 有 的 traits 都 提供 关于 模型 自身 的 文档 。 创 建 类 的 声明 方式 使 它 是 
解释 的 : 


In [6]: 


from traits.api import HasTraits, Str, Float 
class Reservoir(HasTraits): 


name - Str 
max storage - Float(100) 


trait 的 desc 元 数据 可 以 用 来 提供 关于 trait 更 多 的 描述 信息 : 
In [7]: 


from traits.api import HasTraits, Str, Float 
class Reservoir(HasTraits): 


name - Str 
max storage - Float(100, desc-'Maximal storage [hm3]') 


现在 让 我 们 来 定义 完整 的 reservoir 类 : 


In [8]: 


from traits.api import HasTraits, Str, Float, Range 


class Reservoir(HasTraits): 
name = Str 
max storage = Float(1e6, desc-'Maximal storage [hm3]') 
max release = Float(10, desc='Maximal release [m3/s]') 
head - Float(10, desc-'Hydraulic head [m]') 
efficiency - Range(0, 1.) 


def energy production(self, release): 
''' Returns the energy production [Wh] for the given relea: 


power = 1000 * 9.81 * self.head * release * self.efficienc 
return power * 3600 


if _name__ == ' main ': 
reservoir - Reservoir( 
name = 'Project A', 
max storage - 30, 
max release - 100.0, 
head = 60, 
efficiency = 0.8 
) 


release = 80 
print 'Releasing {} m3/s produces {} kwh'.format( 
release, reservoir.energy_production(relea: 


| E un 





Releasing 80 m3/s produces 1.3561344e+11 kWh 


3.4.3.4 可 视 化 : 打开 一 个 对 话 框 


Traits 库 也 关注 用 户 界面 ， 可 以 弹出 一 个 Reservoir 类 的 默认 视图 : 
In []: 


reservoiri = Reservoir() 
reservoiri.edit traits() 


Edit properties 
Efficiency: 0.0 (71.0 08 | 
Head: 10 
Hydraulic head: 60 
Max release: 100.0 











Max storage: 30.0 





Name: Project A 





TraitsUl 简 化 了 创建 用 户 界 面 的 方式 。HasTraits 类 上 的 每 一 个 trait 都 有 一 个 默认 的 编 
辑 器 ， 将 管理 trait 在 屏幕 上 显示 的 方式 ( 即 Range trait 显 示 为 一 个 滑 块 等 )。 


与 Traits 声明 方式 来 创建 类 的 相同 渠道 ，TraitsUl 提 供 了 声明 的 界面 来 构建 用 户 界 面 
代码 : 


In []: 


from traits.api import HasTraits, Str, Float, Range 
from traitsui.api import View 


class Reservoir(HasTraits): 
name = Str 
max storage = Float(1e6, desc-'Maximal storage [hm3]') 
max release - Float(10, desc-'Maximal release [m3/s]') 
head = Float(10, desc-'Hydraulic head [m]') 
efficiency - Range(0, 1.) 


traits view - View( 
'name', 'max storage', 'max release', 'head', 'efficiency', 
title - 'Reservoir', 
resizable - True, 


) 


def energy production(self, release): 
''' Returns the energy production [Wh] for the given relea: 


power = 1000 * 9.81 * self.head * release * self.efficienc\ 
return power * 3600 


if | name == ' main ': 
reservoir - Reservoir( 
name = 'Project A', 
max storage = 30, 
max release - 100.0, 
head = 60, 
efficiency = 0.8 
) 


reservoir .configure_traits() 


二 用 





Reservoir 
Max storage: 30.00 | 
Max release: 100.0 
Head: 60.0 
Efficiency: 0.0 p, 1008 |. 





3.4.3.5 HEIR 
可 以 将 trait 定 义 和 它 的 值 推送 给 另 一 个 对 象 是 Traits 的 有 用 的 功能 。 
In []: 


from traits.api import HasTraits, Instance, DelegatesTo, Float, Rar 
from reservoir import Reservoir 


class ReservoirState(HasTraits): 
"""Keeps track of the reservoir state given the initial storage 


reservoir - Instance(Reservoir, ()) 


min storage - Float 
max storage - DelegatesTo('reservoir') 
min release - Float 


max release DelegatesTo('reservoir') 
# state attributes 
storage = Range(low-'min storage', high='max_storage' ) 


# control attributes 

inflows = Float(desc='Inflows [hm3]') 

release = Range(low='min_release', high='max_release' ) 
spillage = Float(desc='Spillage [hm3] ) 


def print_state(self): 
print 'StorageNtReleaseNtInflowsNtSpillage' 
str format = '\t'.join(['{:7.2f}'for i in range(4)]) 
print str format.format(self.storage, self.release, self.ir 
self.spillage) 


print '-' * 79 
if name == ' main ': 
projectA - Reservoir( 
name = 'Project A', 


max storage - 30, 
max release - 100.0, 
hydraulic head = 60, 
efficiency - 0.8 


) 

state - ReservoirState(reservoir-projectA, storage-10) 

state.release - 90 

state.inflows - 0 

state.print state() 

print 'How do we update the current storage ?' 
JR ae 
FFE Atraitse 4 ASK xxxx fired A 3& E EB ER 4 AAR eS: 


In []: 





from traits.api import HasTraits, Instance, DelegatesTo, Float, Rar 


from reservoir import Reservoir 


class ReservoirState(HasTraits): 
"""Keeps track of the reservoir state given the initial storage 


For the simplicity of the example, the release is considered in 
hm3/timestep and not in m3/s. 


reservoir - Instance(Reservoir, ()) 


min storage - Float 
max storage - DelegatesTo('reservoir') 
min release - Float 


max release DelegatesTo('reservoir') 
4 state attributes 
storage = Range(low-'min storage', high='max_storage' ) 


# control attributes 

inflows = Float(desc='Inflows [hm3]') 

release = Range(low='min_release', high='max_release' ) 
spillage = Float(desc='Spillage [hm3]') 


update_storage = Event(desc='Updates the storage to the next t: 


def update storage fired(self): 
# update storage state 
new storage = self.storage - self.release + self.inflows 
self.storage - min(new storage, self.max storage) 
overflow - new storage - self.max storage 
self.spillage - max(overflow, 0) 


def print state(self): 
print 'StorageNtReleaseNtInflowsNtSpillage' 
str format = '\t'.join(['{:7.2f}'for i in range(4)]) 
print str format.format(self.storage, self.release, self.ir 
self.spillage) 


pieunte nO 
if | name == ' main ': 
projectA - Reservoir( 
name - 'Project A', 


max storage - 30, 
max release - 5.0, 
hydraulic head = 60, 
efficiency - 0.8 


) 
state - ReservoirState(reservoir-projectA, storage-15) 


state.release 5 
state.inflows 9 


# release the maximum amount of water during 3 time steps 
state.update storage - True 


state.print state() 
state.update storage - True 
state.print state() 
state.update storage 
state.print state() 


True 








对 象 间 的 依赖 可 以 自动 使 用 traitProperty 完 成 。depends_on 属 性 表示 property 其 他 
traits 的 依赖 性 。 当 其 他 traits 改 变 了 ,property 是 无 效 的 。 此 外 ，Traits 为 属性 使 用 魔 
法 函数 的 名 字 : 


o get XXX 来 获得 XXX 属 性 的 trait 
e set XXX 来 设置 XXX 属 性 的 trait 


In [T: 


from traits.api import HasTraits, Instance, DelegatesTo, Float, Rar 
from traits.api import Property 


from reservoir import Reservoir 


class ReservoirState(HasTraits): 


"""Keeps track of the reservoir state given the initial storage 


For the simplicity of the example, the release is considered in 
hm3/timestep and not in m3/s. 


reservoir = Instance(Reservoir, ()) 
max storage = DelegatesTo('reservoir' ) 
min_release = Float 

max release = DelegatesTo('reservoir' ) 


# state attributes 
storage = Property(depends_on='inflows, release' ) 


# control attributes 
inflows = Float(desc='Inflows [hm3]') 
release = Range(low='min_release', high='max_release' ) 
spillage = Property( 
desc-'Spillage [hm3]', depends_on=['storage', 'inflows 
) 


### Private traits. 
_storage = Float 


### Traits property implementation. 

def _get_storage(self): 
new_storage = self._storage - self.release + self.inflows 
return min(new_storage, self.max_storage) 


def _set_storage(self, storage value): 


self. storage - storage value 


def get spillage(self): 
new storage = self. storage - self.release + self.inflows 
overflow - new storage - self.max storage 
return max(overflow, 0) 


def print state(self): 
print 'StorageNtReleaseNtInflowsNtSpillage' 
str format = '\t'.join(['{:7.2f}'for i in range(4)]) 
print str format.format(self.storage, self.release, self.ir 
self.spillage) 


print '-' * 79 
if _ name == ' main ': 
projectA - Reservoir( 
name = 'Project A', 


max storage - 30, 
max release - 5, 
hydraulic head = 60, 
efficiency - 0.8 

) 


state - ReservoirState(reservoir-projectA, storage-25) 
state.release = 4 
state.inflows - 0 


state.print state() 
了 EMEN 





注意 缓存 属性 当 访问 一 个 输入 没有 改变 的 属性 时 ，[email protected] propertylZ / 
器 可 以 用 来 缓存 这 个 值 ， 并 且 只 有 在 失效 时 才 会 重新 计算 一 次 他 们 。 


让 我 们 用 ReservoirState 的 例子 来 扩展 TraitsUl 介 绍 : 
In [1]: 


from traits.api import HasTraits, Instance, DelegatesTo, Float, Rar 
from traitsui.api import View, Item, Group, VGroup 


from reservoir import Reservoir 


class ReservoirState(HasTraits): 
"""Keeps track of the reservoir state given the initial storagt 


For the simplicity of the example, the release is considered in 
hm3/timestep and not in m3/s. 

reservoir - Instance(Reservoir, ()) 

name - DelegatesTo('reservoir') 

max storage - DelegatesTo('reservoir') 

max release - DelegatesTo('reservoir') 


min release - Float 


4 state attributes 
storage = Property(depends on-'inflows, release') 


# control attributes 
inflows = Float(desc='Inflows [hm3]') 
release = Range(low='min_release', high='max_release' ) 
spillage = Property( 
desc='Spillage [hm3]', depends_on=['storage', 'inflows 


) 


### Traits view 
traits view = View( 
Group( 
VGroup(Item('name'), Item('storage'), Item('spillage'), 
label - 'State', style - 'readonly' 
), 


VGroup(Item('inflows'), Item('release'), label='Contro- 


) 


### Private traits. 
storage = Float 
### Traits property implementation. 
def get storage(self): 
new storage = self. storage - self.release + self.inflows 
return min(new storage, self.max storage) 


def set storage(self, storage value): 
self. storage - storage value 


def get spillage(self): 
new storage = self. storage - self.release + self.inflows 
overflow - new storage - self.max storage 
return max(overflow, 0) 


def print state(self): 
print 'StorageNtReleaseNtInflowsNtSpillage' 
str format = '\t'.join(['{:7.2f}'for i in range(4)]) 
print str format.format(self.storage, self.release, self.ir 
self.spillage) 


print o 25 9 
if name == ' main ': 
projectA - Reservoir( 
name - 'Project A', 


max storage - 30, 
max release - 5, 
hydraulic head = 60, 
efficiency - 0.8 


state - ReservoirState(reservoir-projectA, storage-25) 
state.release = 4 
state.inflows - 0 


state.print state() 
state.configure traits() 








Edit properties 





| State 

Name: Project A 
Storage: 21.0 
Spillage: 0 





| Control 
Inflows: 0.0 
Release: 0.0 Q 5.0 4.0 





Some use cases need the delegation mechanism to be broken by the user when 
setting the value of the trait. The PrototypeFrom trait implements this behaviour. 


In []: 


TraitsUI simplifies the way user interfaces are created. Every tra: 
In the very same vein as the Traits declarative way of creating cli 


[gre esr] 





3.5 使 用 Mayavi 进 行 3D 作 
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3.6 scikit-learn : Python 中 的 机 器 学 习 
In [5]: 


%matplotlib inline 
import numpy as np 


作者 : Fabian Pedregosa, Gael Varoquaux 
先决 条 件 
Numpy, Scipy 
IPython 
matplotlib 


scikit-learn (http://scikit-learn.org) 





machine learning in Python 
章节 内 容 


加 载 样 例 数 据 集 
- 学 习 与 预测 
分 类 
- KNN 分 类 器 
- 分 类 的 支持 向 量 机 (SVMs) 
RE: 将 观察 值 聚 集 在 一 起 
- K-meansZE x 
使 用 主 成 分 分 析 的 降 维 
把 所 有 都 放 在 一 起 : 面孔 识别 
线性 模型 : 从 回 为 到 简约 
- 简约 模型 
模型 选择 : 选择 预测 器 和 参数 
- 网 格 搜索 和 交叉 验证 预测 器 


警告 : 从 版 本 0.9 (在 2011 年 9 月 发 布 ) 起 ，scikit-learn 导 入 路 径 从 scikits.learn AA 
sklearn 
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3.5.1 加 载 样 例 数 据 集 





首先 ， 我 们 将 加 载 一 些 数据 来 玩 玩 。 我 们 将 使 用 的 数据 是 知名 的 非常 简单 的 花 数 据 
E Fd Site. 


我 们 有 150 个 苦 尾 花 观察 值 指定 了 一 些 测 量 : d 
办 长 度 ， 以 及 对 应 的 子 类 : Iris setosa, Iris versicolor 和 |ris virginica. 


将 数据 集 加 载 为 Python 对 象 : 
In [1]: 


from sklearn import datasets 
iris - datasets.load iris() 


这 个 数据 存储 在 .data 成 员 中 ， 是 一 个 (n samples, n features) 数组 。 
In [2]: 


iris.data.shape 
Out[2]: 


(150, 4) 


每 个 观察 的 类 别 存储 在 数据 集 的 .target 属性 中 。 这 是 长 度 是 n_samples 的 1D 整 
型 数组 : 


In [3]: 
iris.target.shape 
Out[3]: 


(150, ) 


In [4]: 


import numpy as np 
np.unique(iris.target) 


Out[4]: 


array([0, 1, 2]) 


~ O uU A» WN L| O 





数据 重 排 的 例子 : digits 数据 集 01234567 


digits 数据 集 包 含 1797 图 像 ， 每 一 个 是 8X8 像 素 的 图 片 ， 代 表 一 个 手写 的 数字 
In [15]: 


digits - datasets.load digits() 
digits.images.shape 


Out[15]: 
(1797, 8, 8) 


In [8]: 


import pylab as pl 
pl.imshow(digits.images[0], cmap=pl.cm.gray_r) 


Out[8]: 


<matplotlib.image.AxesImage at 0x109abd990> 





1 2 3 4 5 6 7 


要 在 scikit 使 用 这 个 数据 集 ， 我 们 将 每 个 8X8 图 片 转化 为 一 个 长 度 为 64 的 向 量 
In [9]: 


data = digits.images.reshape((digits.images.shape[0], -1)) 


3.5.1.1 学 习 和 预测 


现在 我 们 有 了 一 些 数据 ， 我 们 想 要 从 上 面 学 习 并 且 在 新 的 数据 做 预测 。 在 scikit- 
learn 中 ， 我 们 通过 创建 一 个 预测 器 ， 并 调用 他 的 ft(X, Y) 方法 从 现 有 数据 上 学 习 。 
In [11]: 

from sklearn import svm 


clf - svm.LinearSVC() 
clf.fit(iris.data, iris.target) # 从 数据 学 习 


Out[11]: 


LinearSVC(C-1.0, class weight-zNone, dual-True, fit intercept-True, 
intercept scaling-1, loss-'squared hinge', max iter-1000, 
multi class-'ovr', penalty-'l2', random state=None, tol=0.000: 
verbose-0) 


LLL — — HR 
一 旦 我 们 从 数据 中 学 习 ， 我 们 可 以 用 我 们 的 模型 来 预测 未 见 过 的 数据 的 最 可 能 输出 : 
In [12]: 
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clt.predact([[ 5.0, 3.6, 1.3, 0.25]]) 
Out[12]: 
array([0]) 


注意 : 我 们 可 以 通过 由 下 滑 线 结尾 的 属性 来 访问 模型 的 参数 : 
In [13]: 


clf.coef 
Out[13]: 


array([[ 0.18424728, 0©.45122657, -0.80794162, -0.45070597], 
[ 0.05691797, -0.89245895, 0©.39682582, -0.92882381], 
[-0.85072494, -0.98678239, 1.38091241, 1.86550868]]) 


3.5.2 分 类 


3.5.2.1 KNN # 2s 


Sepal width 





Sepal length 
可 能 最 简 最 接近 的 邻居 : 给 定 一 个 观察 ， 使 用 在 N 维 空间 中 训练 样 例 中 
最 接近 近 它 标签 ， 这 里 N 是 每 个 样 例 的 特征 数 。 


K 个 最 临近 的 邻居 分 类 器 内 部 使 用 基于 ball tree 的 算法 ， 用 来 代表 训练 的 样 例 。 
KNN (K 个 最 临近 邻居 ) 分 类 的 例子 : 
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In [14]: 


# 创建 并 拟 合 一 个 最 临近 邻居 分 类 器 

from sklearn import neighbors 

knn - neighbors.KNeighborsClassifier() 
knn.fit(iris.data, iris.target) 


Out[14]: 


KNeighborsClassifier(algorithm='auto', leaf size-30, metric-'minkov 
metric params-None, n neighbors-5, p-2, weights-'uniforr 


B———————————Á— D 
In [15]: 





knn.predict([[0.1, 0.2, 0.3, 0.4]]) 


Out[15]: 


array([0]) 


训练 集 和 测试 集 


当 用 学 习 算 法 进行 实验 时 ， 重 要 的 一 点 是 不 要 用 拟 合 预测 器 的 数据 来 测试 预测 器 的 
预测 力 。 实 际 上 ， 我 们 通常 会 在 测试 集 上 得 到 准确 的 预测 。 


In [16]: 


perm = np.random.permutation(iris.target.size) 
iris.data - iris.data[perm] 

iris.target - iris.target[perm] 
knn.fit(iris.data[:100], iris.target[:100]) 


Out[16]: 


KNeighborsClassifier(algorithm-'auto', leaf size-30, metric-'minkov 
metric params-None, n neighbors-5, p-2, weights-'uniforr 


4 Saray 
In [17]: 





knn.score(iris.data[100:], iris.target[100:]) 
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Out[17]: 

0.95999999999999996 
额外 的 问题 : 为 什么 我 们 使 用 随机 排列 ? 
3.5.2.2 分 类 的 支持 向 量 机 (SVMs)) 
3.5.2.2.1 线性 支持 向 量 机 





SVMs 试 图 构建 一 个 最 大 化 两 个 类 的 间距 的 超 平面 。 它 选取 输入 的 一 个 子 集 ， 称 为 
支持 向 量 ， 这 个 子 集中 的 观察 距离 分 隔 超 平面 最 近 。 


In [18]: 
from sklearn import svm 


svc = svm.SVC(kernel-'linear') 
svc.fit(iris.data, iris.target) 


Out[18]: 


SVC(C-1.0, cache size-200, class weight-zNone, coef0-0.0, degree-3, 
kernel-'linear', max iter--1, probability-False, random state=Nor 
shrinking-True, tol=0.001, verbose-False) 


El E 


在 scikit-learn 实 现 了 几 种 支持 向 量 机 。 最 常用 的 是 svm.SVC . svm.NuSVC 和 
svm.LinearSVC ; “SVC” 代表 支持 向 量 分 类 器 (也 存在 用 于 回 为 的 SVMs, 在 scikit- 
learn 被 称 为 “SVR”)。 
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练习 
在 digits 数 据 集 上 训练 svm.svc 。 留 下 最 后 的 10%， 在 这 些 观察 上 测试 预测 的 效 


o 


3.5.2.2.2 使 用 核 (kernel)) 


类 通常 并 不 是 都 能 用 超 平面 分 隔 ， 因 此 ， 有 一 个 不 仅仅 是 线性 也 可 能 是 多 项 式 或 者 
3 B PREER DUE BH ER BJ : 





线性 核 (kernel) 
In [19]: 


svc = svm.SVC(kernel-'linear') 





多 项 式 核 (kernel) 


In [20]: 
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svc = svm.SVC(kernel-'poly', degree=3) 
# degree: 多 项 式 的 阶 





RBF 核 (kernel) ( 径 向 基 核 函数 ) 
In [21]: 


svc = svm.SVC(kernel-'rbf') 


4 gamma: 径 向 基 核 大 小 的 倒数 
练习 以 上 列 出 的 核 哪 一 个 在 digits 数 据 集 上 有 较 好 的 预测 表现 ? 


3.5.3 RX : 将 观察 值 分 组 

DAS EE (iris) 数据 集 为 例 ， 如 果 有 三 类 苗 尾 花 ， 但 是 并 不 能 访问 他 们 标签 ， 我 们 
可 以 尝试 非 观 察 学 习 : 通过 一 些 标准 将 观察 聚 类 分 入 一 些 组 。 

3.5.3.1 K-means EE X 

最 简单 的 聚 类 算法 是 k-means。 这 个 算法 将 集合 分 成 k 个 组 ， 将 每 个 观察 值 分 配给 一 
个 组 ， 以 便 使 观察 值 (在 n 维 空间 ) 到 组 平均 值 的 距离 最 小 ; 然后 重新 计算 平均 数 。 
循环 进行 这 个 操作 直到 组 收敛 ， 比 如 达到 最 大 的 max iter 循环 次 数 。 


(k-means 的 另 一 个 实现 在 SciPy 的 cluster 包 中 。 scikit-learn 实现 的 不 同 在 
于 提供 了 一 个 对 象 API 和 一 些 额 外 的 功能 ， 包 括 智 能 初始 化 。) 


In [2]: 
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from sklearn import cluster, datasets 
iris - datasets.load iris() 

k means - cluster.KMeans(n clusters-3) 
k means.fit(iris.data) 


Out[2]: 


KMeans(copy x-True, init='k-means++', max iter-300, n clusters-3, r 
n jobs-1, precompute distances-'auto', random state-zNone, tol=( 
verbose-0) 


s 一 一 一 





In [25]: 


print k means.labels [::10] 


[00000111112222 2] 


In [26]: 


print iris.target[::10] 


[00000111112222 2] 


真实 情况 





K-means (3 组 ) 


Petal length 


K-means (8 28) 


Petal length 





tt m us ng rh B8 MA 
聚 类 可 以 看 做 从 信息 中 选取 一 组 观察 的 方式 。 例 如 ， 这 个 技术 可 以 被 用 来 posterize 
一 个 图 像 (将 连续 渐变 色调 转换 为 更 少 色 调 的 一 些 区 域 ): 


In [5]: 


from Scipy import misc 
lena = misc.lena().astype(np.float32) 
X = lena.reshape((-1, 1)) # We need an (n sample, n feature) array 


k means - cluster.KMeans(n clusters-5) 


k means.fit(X) 





K 
Out[5]: 
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KMeans(copy_x=True, init='k-means++', max_iter=300, n_clusters=5, r 
n_jobs=1, precompute_distances='auto', random_state=None, tol=( 
verbose-0) 


In [6]: 





values - k means.cluster centers .squeeze() 
labels - k means.labels 

lena compressed - np.choose(labels, values) 
lena compressed.shape - lena.shape 


源 图 片 





K-means quantization 
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上 面 观察 展开 的 云 点 在 一 个 方向 非常 平坦 ， 因 此 ， 一 个 特征 几乎 可 以 准确 用 另 两 个 
PCA 找 到 数据 并 不 平坦 的 方向 ， 并 且 可 以 通过 投影 到 一 个 子 空 间 中 来 
减少 维 o 


警告 : 根据 你 的 scikit-learn 版 本 ，PCA 将 在 模块 decomposition £X pca 中 。 
In [3]: 


from sklearn import decomposition 
pca - decomposition.PCA(n components-2) 
pca.fit(iris.data) 


Out[3]: 
PCA(copy-True, n components-2, whiten-False) 
In [4]: 


X = pca.transform(iris.data) 


现在 我 们 可 视 化 (转换 的 ) 车 尾 花 数 据 集 : 
In [6]: 


import pylab as pl 
pl.scatter(X[:, 0], X[:, 1], c-iris.target) 


Out[6]: 


«matplotlib.collections.PathCollection at 0x107502b90> 








PCA 并 不 仅仅 在 高 纬度 数据 集 的 可 祝 化 上 有 用 。 它 也 可 以 用 于 帮助 加 速 对 高 维 不 太 
高 效 的 有 监督 方法 的 预 处 理 步骤 。 


3.5.5 把 所 有 的 东西 放 在 一 起 : 面孔 识别 


展示 使 用 主 成 分 分 析 来 降 维 和 用 执行 向 量 机 分 类 的 面孔 识别 的 例子 。 





In []: 


Stripped-down version of the face recognition example by Olivier G! 
http://scikit-learn.org/dev/auto examples/applications/face recogn: 


## original shape of images: 50, 37 

import numpy as np 

import pylab as pl 

from sklearn import cross val, datasets, decomposition, svm 


Toc 

# .. load data .. 

lfw people - datasets.fetch lfw people(min faces per person-70, re: 
perm = np.random.permutation(lfw people.target.size) 

lfw people.data - lfw people.data[perm] 

lfw people.target - lfw people.target[perm] 

faces = np.reshape(lfw people.data, (lfw people.target.shape[0], -: 
train, test = iter(cross val.StratifiedKFold(lfw people.target, k=: 
X train, X test - faces[train], faces[test] 

y train, y test = lfw people.target[train], lfw people.target[test. 





ui 

# .. dimension reduction 

pca - decomposition.RandomizedPCA(n components-150, whiten-True) 
pca.fit(X train) 

X train pca - pca.transform(X train) 

X test pca - pca.transform(X test) 


HE 

# .. Classification .. 

clf = svm.SVC(C=5., gamma=0.001) 
clf.fit(X train pca, y train) 


"nac 
# .. predict on new images .. 
for i in range(10): 

print lfw people.target names[clf.predict(X test pca[i])[0]] 
pl.imshow(X test[i].reshape(50, 37), cmap-pl.cm.gray) 
raw input() 





完整 代码 : faces.py 


3.5.6 线性 模型 : Mg] ja Bil f 2 


糖尿 病 数据 集 糖尿 病 含 442 个 病人 测量 的 10 个 生理 学 变量 (EH MES, 
体重 、 血 压 )， 以 及 一 个 一 年 后 病情 发 展 的 标记 : 


In [8]: 


diabetes - datasets.load diabetes() 
diabetes X train diabetes.data[:-20] 
diabetes X test diabetes.data[-20:] 
diabetes y train diabetes.target[:-20] 
diabetes y test diabetes.target[-20:] 


目前 的 任务 是 从 生理 学 变量 中 预测 疾病 发 生 。 


3.5.6.1 简约 模型 


要 改善 问题 的 条 件 (信息 量 小 的 变量 、 减 少 高 纬度 的 诅咒 、 作 为 一 个 特征 预 义理 等 
Æ) 仅 选 择 信息 量 大 的 特征 ， 并 且 将 没有 信息 量 的 特征 设置 为 0 将 非常 有 趣 。 这 种 
惩罚 手段 ， 称 为 Lasso, 可 以 将 一 些 系数 设置 为 0。 这 个 方法 称 为 简约 方法 ， 简 约 性 
可 以 看 做 是 Occam 剃 刀 的 一 个 应 用 : 相 比 于 复 灯 的 模型 更 偏好 简单 的 模型 。 


In [9]: 


from sklearn import linear model 
regr = linear model.Lasso(alpha-.3) 
regr.fit(diabetes X train, diabetes y train) 


Out[9]: 


Lasso(alpha=0.3, copy X-True, fit intercept-True, max iter-1000, 
normalize-False, positive-False, precompute-False, random state: 
selection-'cyclic', tol-0.0001, warm start-False) 


ay 
In [10]: 





regr.coef 4 非常 简约 的 系数 


Out[10]: 
array([ ON. ， NEN , 497.34075682, 199.1744103: 
-0\. ESO , -118.89291545, ON. 
430.9379595 , ON. 1) 





In [11]: 


regr.score(diabetes X test, diabetes y test) 


Out[11]: 

0.55108354530029779 
SRSA) (RDR) 很 相似 : 
In [12]: 


lin = linear model.LinearRegression() 
lin.fit(diabetes X train, diabetes y train) 


Out[12]: 

LinearRegression(copy X-True, fit intercept-True, n jobs-1, normal: 
E >| 
In [13]: 





lin.score(diabetes_X_test, diabetes_y_test) 


Out[13]: 

0.58507530226905713 
相同 问题 的 不 同 算法 不 同 的 算法 可 以 用 于 解决 相同 的 数学 问题 。 例 如 ，sklearn 中 
的 Lasso 对 象 用 坐标 下 降 法 来 解 lasso 回 为 ， 这 种 方法 在 大 数据 集 上 上 有效。 但 


是 ， Sklearn 也 提供 了 LassoLARS 对 象 ， 使 用 LARS， 一 种 在 权重 向 量 估计 非常 稀 疏 
的 问题 上 非常 高 效 的 方法 ， 即 有 很 少 观察 值 的 问题 。 


3.5.7 模型 选择 : 选择 预测 器 及 其 参数 
3.5.7.1 网 格 搜 索 和 交叉 验证 预测 器 


3.5.7.1.1 网 格 搜索 


scikit-learn 提 供 了 ud uum Na ee 并 且 
ae ee 这 个 对 象 用 一 个 构建 中 的 预测 器 并 且 暴 露 了 
一 个 预测 器 的 探索 集 APIl: 


In [16]: 


from sklearn import svm, grid search 

gammas - np.logspace(-6, -1, 10) 

svc = svm.SVC() 

clf = grid search.GridSearchCV(estimator-svc, param grid-dict(gamm: 
clf.fit(digits.data[:1000], digits.target[:1000]) 


4 PESE 
Out[16]: 





| 





GridSearchCV(cvzNone, error score-'raise', 
estimator-SVC(C-1.0, cache size-200, class weight-zNone, coe! 
kernel-'rbf', max iter--1, probability-False, random state-None, 
shrinking-True, tol=0.001, verbose-False), 
fit params-(), iid-True, loss func-None, n jobs--1, 
param grid-('gamma': array([ 1.00000e-06, 3.59381e-06, 
1.66810e-04, 5.99484e-04, 2.15443e-03, 7.74264e-03, 
2.78256e-02, 1.00000e-01])}, 
pre dispatch-'2*n jobs', refit-True, score_func=None, scorir 
verbose-0) 


E — 





In [20]: 
clf.best score. 
Out[20]: 
0.93200000000000005 
In [22]: 
clf.best estimator .gamma 


Out[22]: 


0.00059948425031894088 


默认 ，GroSearcnCVv 使 用 三 折 交 叉 验 证 。 但 是 ， 如 果 识 别传 递 了 一 个 分 类 器 都 不 
是 一 个 回 愉 器 ， 它 将 使 用 一 个 分 层 三 折 。 


3.5.7.1.2 交叉 验证 预测 器 


一 个 算法 一 个 算法 为 基础 的 设置 参数 来 进行 交叉 验证 更 有 效 。 这 也 就 是 为 什么 ， 对 
于 一 些 预测 器 ，scikit-learn 暴 露 一 个 “CV” 预 测 器 , 这 个 预测 器 通过 交叉 验证 自动 设置 
他 们 的 参数 : 


In [23]: 


from sklearn import linear model, datasets 
lasso - linear model.LassoCV() 

diabetes - datasets.load diabetes() 

X diabetes - diabetes.data 

y diabetes - diabetes.target 

lasso.fit(X diabetes, y diabetes) 


Out[23]: 


LassoCV(alphas=None, copy X-True, cv=None, eps-0.001, fit intercept! 
max iter-1000, n alphas-100, n jobs-1, normalize-False, positi 
precompute-'auto', random state=None, selection-'cyclic', tol=( 
verbose-False) 
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In [26]: 





# 预测 器 自动 选择 他 的 lambda: 
lasso.alpha 


Out[26]: 


0.012291895087486173 


这 些 预 测 器 与 他 们 的 对 等 物 调用 方式 类 似 ， 只 是 在 名 字 后 面 增加 了 'CV，。 
练习 在 糖尿 病 数 据 集中 ， 找 到 最 优化 的 正则 化 参数 alpha。 


